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内 容 简 介 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提供 了 有 
弹性 的 、 互 动 的 环境 来 分 析 、 可 视 及 展示 数据 ， 它 提供 了 若干 统计 
程序 包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计 算 的 函 
数 ， 用 户 只 需 根 据 统 计 模 型 ， 指 定 相应 的 数据 库 及 相关 的 参数 ， 便 
可 灵活 机 动 的 进行 数据 分 析 等 工作 , 其 至 创造 出 符合 需要 的 新 的 统 
计 计 算 方 法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 
存 取 , 到 计算 结果 的 分 享 ，R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 
助 你 更 好 地 分 析 和 人 解决 问题 ， 通 过 及 软件 的 许多 内 骸 统 计 函 数 ， 
用 户 可 以 很 容易 学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函 
数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工作 . 

本 书 既 深入 浅 出 、 通 俗 易 懂 ， 又 从 数理 统计 的 角度 对 R 软件 
进行 科学 、 准 确 和 全 面 的 介绍 ， 不 仅 介绍 其 基本 用 法 ， 而 且 简 要 介 
绍 一 些 必 须 的 专业 知识 背景 ,以 便 使 读者 能 次 刻 理 解 该 软件 的 精 散 
和 灵活 、 高 级 的 使 用 技巧 ， 此外， 我 们 还 将 介绍 在 工程 技术 、 经 济 
管理 、 社 会 生活 等 各 方面 的 丰富 的 统计 间 题 及 其 统计 建 模 方法 , 通 
过 该 软件 其 问题 进行 求解 ,使 读者 获得 从 实际 问题 建 模 入 手 、 到 利 
用 软件 进行 求解 ， 以 及 对 计算 结果 进行 分 析 的 全 面 训 练 . 

本 教材 以 统计 理论 为 基础 ， 按 照 数理 统计 教材 的 章节 顺序 ,在 
讲 明 统计 的 基本 概念 的 同时 ， 以 R 软件 为 辅助 计算 手段 ， 重 点 介 
绍 统计 计算 的 方法 ， 从 而 有 效 地 解决 统计 中 的 计算 问题 . 

本 书 可 作为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 数 理 统计 课程 
的 辅导 教材 或 教学 参考 书 ， 也 作为 统计 计算 课程 的 教材 ， 和 数学 建 
模 竞 赛 的 辅导 教材 . 
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本 书 力求 将 实用 统计 方法 的 介绍 与 在 计算 机 上 如 何 R 软件 实现 这 些 方法 紧 
密 地 联系 起 来 ， 不 仅 介 绍 各 种 上 数理 统计 方法 的 统计 思想 、 实 际 背景 、 统 计 模 型 
和 计算 方法 ， 并 且 结 合 R 软件 ， 给 出 相应 的 解决 问题 的 步骤 和 对 计算 结果 进行 
分 析 . 

关于 数理 统计 的 教材 或 教科 书 已 非常 多 , 这 类 教材 主要 是 以 数理 统计 的 理论 
为 基础 ， 讲 清 其 理论 、 方 法 与 应 用 背景 ,但 对 于 计算 ， 讲 的 较 少 ， 基 本 是 以 手工 
计算 为 主 ， 目 的 是 为 了 帮助 读者 理解 相应 的 统计 方法 ， 可 操作 性 不 强 . 

关于 统计 计算 的 书 也 有 不 少 ， 目 前 ， 统 计 计 算 的 教材 一 般 是 讲 算法 (这 一 点 
与 数值 分 析 或 计算 方法 差不多 )， 而 没有 相应 的 软件 做 支撑 ， 有 些 内 容 是 数值 分 
析 内 容 的 重复 ， 统 计 味 不 足 . 

结合 软件 讲 统计 的 书 ， 目 前 最 多 的 是 结合 SAS 软件 、 SPSS 软件 . 这 类 书 
籍 基本 上 相当 于 软件 使 用 说 明 书 ， 虽 然 谈 到 一 些 统计 概念 ， 但 讲 的 很 少 . 

本 书 既 不 是 单纯 的 一 本 关于 数理 统计 或 统计 计算 的 教科 书 , 也 不 只 是 一 本 关 
于 R 软件 的 使 用 手册 ， 而 是 一 本 将 两 者 相 结合 的 教科 书 ， 本 书 的 特点 是 结合 RR 
软件 来 讲 数理 统计 的 基本 概论 与 计算 方法 . 

R 软件 是 一 种 统计 软件 ， 也 是 一 种 数学 计算 环境 . 它 提供 了 有 弹性 的 、 互 动 
的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提 供 了 者 干 统计 程序 包 ， 以 及 一 些 集成 的 统 
计 工 具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 统计 模型 ， 指 定 相应 的 
数据 库 及 相关 的 参数 ， 便 可 灵活 机 动 的 进行 数据 分 析 等 工作 ， 甚 至 创造 出 符合 需 
要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 分 析 过 程 ， 从 数据 的 存 
取 ， 到 计算 结果 的 分 享 ， R 软件 提供 了 更 加 方便 的 计算 工具 ， 帮 助 你 更 好 地 分 
析 和 解决 问题 . 通过 R 软件 的 许多 内 骨 统 计 函 数 ， 用 户 可 以 很 容易 学 习 和 掌握 
R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 你 的 科研 工 
作 . 

本 教材 的 编写 风格 是 : (1) 以 目前 常见 的 数理 统计 教材 的 内 容 为 基准 ， 首 
先 对 数理 统计 的 基本 概念 、 基 本 方法 作 一 个 简单 、 清 晰 的 介绍 ,在 注重 基础 的 同 
时 ， 侧 重 统计 思想 和 统计 方法 的 介绍 . (2) 以 R 语言 为 主 ， 编 写 相 应 的 计算 程 
序 . 这 部 分 内 容 的 目的 有 两 个 ， 第 一 是 学 习 R 软件 的 编程 方法 ， 和 掌握 R 软件 的 
基本 技巧 . 第 二 是 通过 编程 加 深 对 统计 方法 的 了 解 与 掌握 ， 同时， 还 可 以 通过 编 
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程 ， 加 深 对 R 软件 中 相关 函数 的 了 解 。 (3) 介绍 相关 的 计算 函数 ， 针 对 许多 统 
计 方 法 ， R 软件 提供 了 大 量 的 内 内 计 算 函 数 ， 使 用 者 只 需 输 入 数据 ， 就 可 得 到 
相应 的 结果 . 这 一 部 分 的 写作 重点 是 放 在 对 计算 结果 的 统计 解释 ， 如 何 通过 结果 
来 分 析 已 有 的 数据 ， 着 重 掌握 相应 的 统计 方法 . 这 些 是 本 教材 最 主要 的 特色 ， 也 
是 不 同 于 其 他 与 软件 有 关 的 教材 ， 本 书 着 重 强调 统计 建 模 ， 以 及 如 何 使 用 及 软 
件 得 到 其 计算 结果 和 相应 的 结果 解释 . 

本 书 的 主要 内 容 ， 第 一 章 ， 概 率 统计 的 基本 知识 . 主要 目的 是 复习 统计 的 基 
本 知识 , 便于 对 后 面 各 章 内 容 的 理解 . 第 二 章 ，R 软件 的 使 用 . 主要 介绍 R 软件 
的 基本 使 用 方法 . 第 三 章 ， 数 据 描述 性 分 析 ， 从 数据 描述 开始 分 析 数 据 ， 主 要 介 
绍 数据 的 基本 特征 ， 如 均值 、 方 差 ， 还 有 与 数据 有 关 的 各 种 图 形 ， 如 直方 图 、 散 
点 图 等 ， 第 四 章 ， 参 数 估计 . 介绍 参数 佑 计 的 基本 方法 ， 如 点 估计 和 区 间 估 计 . 
着 重 介绍 R 软件 中 与 估计 有 关 的 函数 . 第 五 章 , 假设 检验 . 介绍 假设 检验 的 基本 
方法 ,一 类 是 参数 检验 ， 男 一 类 是 非 参数 检验 ， 非 参数 检验 是 该 章 的 主要 内 容 ， 
重点 介绍 R 软件 中 与 非 参 数 检验 的 各 类 函数 和 使 用 方法 . 第 六 章 ， 回归 分 析 . 介 
绍 回归 分 析 的 基本 方法 ， 着 重 介 绍 回 归 分 析 的 过 程 与 方法 和 如 何 使 用 及 软件 作 
回归 分 析 . 除 一 般 的 回归 方法 外 ， 还 谈 到 逐步 回归 、 非 线性 回归 的 等 内 容 ， 第 七 
章 ,， 方差 分 析 . 介绍 单 因素 方差 分 析 、 双 因素 方差 分 析 ， 以 及 正 交 试验 设计 与 方 
差分 析 之 间 的 关系 . 第 八 章 ， 应 用 多 元 分 析 ( 工 ). 介绍 判别 分 析 和 聚 类 分 析 ， 
这 些 内 容 与 判别 和 分 类 有 关 . 第 九 章 ， 应 用 多 元 分 析 (II ). 介绍 主 成 分 分 析 、 
主因 子 分 析 和 典型 相关 分 析 ， 它 是 应 用 多 元 分 析 中 降 维 计算 的 内 容 ， 第 十 章 ， 计 
算 机 模拟 . 介绍 与 计算 机 模拟 的 Monte Carlo 方法 ， 以 及 系统 模拟 方法 ， 最 后 介 
绍 模拟 方法 在 排队 论 中 的 应 用 . 

在 学 习 本 书 的 内 容 之 后 ， 你 会 发 现 ， 尽 管 有 些 统计 内 容 其 计算 是 相当 复杂 
的 ， 但 在 使 用 R 软件 之 后 ， 这 些 问题 可 以 很 轻松 地 得 到 解决 . 

本 书 所 编写 的 R 函数 ， 以 及 所 介绍 的 R 函数 均 以 R-2.1.1 版 为 基础 (目前 
的 版 本 是 R-2.3.1, 而 且 大 约 每 3 至 4 个 月 版 本 会 更 新 一 次 ), 而 且 全 部 程序 均 运 
行 通过 ， 读 者 如 果 需 要 作者 自 编 的 及 程序 ， 可 以 发 电子 邮件 向 作者 索取 ， 邮 件 
地 址 : ”xueyi@bjut.edu.cn. 


本 书 是 为 理工 、 经 济 、 管 理 、 生 物 等 专业 学 生 或 专业 人 员 为 解决 统计 计算 问 
题 而 编写 ， 可 以 作为 上 述 专 业 学 生 数 理 统计 课程 的 辅导 教材 或 教学 参考 书 ， 也 作 
为 统计 计算 课程 的 教材 ， 和 数学 建 模 竞赛 的 辅导 教材 . 
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第 一 章 ”概率 统计 的 基本 知识 


本 书 是 一 本 统计 建 模 与 软件 应 用 相 结 合 的 教科 书 , 其 讲述 重点 放 在 数理 统计 
的 基本 方法 和 用 R 软件 进行 相应 的 计算 . 众所周知 ， 数 理 统 计 是 以 概率 论 为 基 
础 、 应 用 非常 广泛 的 数学 学 科 分 支 ， 是 通过 对 试验 或 观察 数据 进行 分 析 ， 来 研究 
随机 现象 以 达到 对 研究 对 象 的 客观 规律 性 做 出 合理 的 估计 和 推断 的 目的 , 因此 在 
介绍 统计 建 模 和 R 软件 知识 之 前 ， 有 必要 先 回 顾 一 下 相关 的 概率 与 数理 统计 的 
基本 概念 ， 以 及 数理 统计 的 各 个 应 用 分 支 . 

本 章 用 四 节 的 内 容 简单 回顾 概率 论 的 基础 知识 , 用 一 节 的 内 容 简 单 介绍 数理 
统计 的 基本 概念 . 这 样 做 的 目的 是 使 读者 对 已 有 概率 论 的 知识 有 一 个 全 面 的 了 解 
与 回顾 ， 对 数理 统计 的 概念 有 一 个 基本 的 认识 . 








1.1 随机 事件 与 概率 


1.1.1 随机 事件 


1. 随机 事件 

在 一 定 条 件 下 ， 所 得 的 结果 不 能 预先 完全 确定 ， 而 只 能 确定 是 多 种 可 能 结果 
中 的 一 种 ， 称 这 种 现象 为 随机 现象 . 例如 ， 抛 掷 一 枚 硬币 ， 其 结果 有 可 能 是 出 现 
正面 ， 也 有 可 能 是 出 现 反面 ; 电话 交换 台 在 1 分 钟 内 接 到 的 呼叫 次 数 ， 可 能 是 0 
次 、1 次 、2 次 、…; 在 同一 工艺 条 件 下 生产 出 的 灯泡 ， 其 使 用 寿命 有 长 有 短 ; 
测量 同一 物体 的 长 度 时 ， 由 于 仪 絮 及 观察 受到 环境 的 影响 ， 多 次 测量 的 结果 往往 
有 差异 ， 等 等 ， 这 些 现 象 都 是 随机 现象 . 

使 随机 现象 得 以 实现 和 对 它 观 察 的 全 过 程 称 为 随机 试验 (random experi- 
ment), 记 为 五. 随机 实验 满足 以 下 条 件 : 

(1) 可 以 在 相同 条 件 下 重复 进行 ; 

(2) 结果 有 多 种 可 能 性 ， 并 且 所 有 可 能 结果 事先 已 知 ; 

(3) 作 一 次 试验 究竟 哪个 结果 出 现 ， 事 驳 不 能 确定 . 

称 随机 试验 的 所 有 可 能 结果 组 成 的 集合 为 样本 空间 (sample space), 记 为 0. 
试验 的 每 一 个 可 能 结果 称 为 样本 点 (sample point), 记 为 w. 
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称 0 中 满足 一 定 条 件 的 子 集 为 随机 事件 (random event), 用 大 写字 母 4, B， 

一 个 随机 事件 只 含 一 个 不 可 再 分 的 试验 结果 称 为 一 个 基本 事件 ( 即 一 个 样本 
点 所 作成 的 集合 {2}). 

在 试验 中 , 称 一 个 事件 发 生 是 指 构成 该 事件 的 一 个 样本 点 出 现 ， 由 于 样本 空 
间 2 包含 了 所 有 的 样本 点 ， 所 以 在 每 次 试验 中 ， 它 总 是 发 生 ， 因 此 称 9 为 必然 
事件 (certain event). 空 集 0 不 包含 任何 样本 点 ， 且 在 每 次 试验 中 总 不 发 生 ， 所 
以 称 0 为 不 可 能 事件 (impossible event). 

2. 随机 事件 之 间 的 关系 

若 事件 4 的 发 生 必然 导致 事件 B 的 发 生 ， 则 称 事件 4 包含 于 事件 B, 或 事 
件 已 包含 事件 4, 记 为 4 C B, 亦 称 为 事件 的 包含 (contain) 关系 . 

车 4cB, 且 Bc 4, 则 称 事件 4 与 事件 BB 等 价 (equivalent), 记 为 4=B. 

若 事 件 4 与 事件 B 至 少 有 一 个 发 生 ， 则 称 为 事件 的 和 (union), 记 为 4U B. 
大 n 个 事件 41，A2, ..…，An 中 至 少 有 一 个 发 生 ， 则 称 为 ”个 事件 的 和 ， 记 为 
4iU4U…U4 或 4 

这 1 


同样 ， 可 以 定义 可 列 无 穷 个 事件 的 和 A1U A2U.…U A,U.… 或 U A, 表示 
无 穷 个 事件 中 至 少 有 一 个 发 生 . 

若 事件 4 发 生 而 事件 B 不 发 生 , 则 称 为 事件 4 与 事件 B 的 差 , 记 为 4-B. 

若 事件 4 与 B 同时 发 生 ， 则 称 事件 4 与 事件 B 的 积 (intersection), 记 为 
AnB 或 AB. 若 个 事件 和 ,42,…, 4 同时 发 生 ， 则 称 为 n 个 事件 的 积 ， 记 
为 A1Nn AsNn :Nn A, 或 站 4 


同样 ， 可 以 定义 可 列 无 穷 个 事件 的 积 41n 4s .…n Ann… 或 站 4 表示 
无 穷 个 事件 同时 发 生 . 

者 事件 4 与 B 不 能 同时 发 生 ， 则 称 事件 4 与 事件 B 为 互 斥 事件 (mutually 
exclusive event ) 或 不 相 容 事件 (incompatiable event), 记 为 4B = 0. 

在 一 次 试验 中 ， 基 本 事件 之 间 是 两 两 互 斥 的 . 

若 4 为 随机 事件 , 称 “ 事 件 4 不 发 生 ” 的 事件 为 事件 4 的 对 立 事件 (opposite 
event) 或 道 事件 (complementary event), 记 为 4， 事 件 与 对 其 立 事件 有 如 下 关 
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系 : 
AUA=Q, AA=1. 
由 定义 可 知 ， 对 立 事件 一 定 是 互 斥 事件 ， 但 互 斥 事件 不 一 定 是 对 立 事件 . 
3. 随机 事件 的 运算 律 
(1) 交换 律 
4UB=BuU4，4B=B4. (1.1) 
(2) 结合 律 
(AUB)UC= AU(BUC), (ANB)NC=AN(BNMO). (1.2) 
(3) 分 配 律 
(AUB)C = (AC)U(BC), AU(BC)= (AUB)(AUO). (1.3) 
(4) 德 . 摩根 律 
4U4=4n4，4na4=4U42. (1.4) 
对 于 ?7 个 或 可 列 无 穷 个 事件 有 
(JAi={ A: (Ar=()A:, (JAs=()A:, (hx= (a. (5) 
k=1 k=1 k=1 k=1 k=1 k=1 k=1 k=1 
(5) 减法 满足 
A-B=AB 或 A4-B=ANB. (1.6) 
1.1.2 ”概率 


1. 概率 的 公理 化 定义 


在 概率 论 中 并 非 样 本 空间 2 的 任何 子 集 均 可 以 看 作 事 件 ， 所 定义 的 事件 之 


间 应 满足 一 定 的 代数 结构 . 
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定义 1.1 设 随 机 试验 轧 的 样本 空间 为 2, 三 是 Q 的 子 集 组 成 的 集 族 ， 满 足 

(Dj DeE 大 

(2 车 4E 太 , 则 4EF;( 对 逆 运 算 封 闭 ) 

(9) 著 Ai € 下, i ==1,2,:…, 则 U4 E 大， (对 可 列 并 运算 封闭 ) 
则 称 太 为 的 一 个 o- 代数 (事件 体 )， 太 中 的 集合 称 为 事件 ， 样 本 空间 Q 和 
0 代数 的 二 元 体 (Q, 下) 称 为 可 测 空间 . 
定义 1.2 随机 试验 瓦 的 样本 空间 为 Q, (Q, 太 ) 是 可 测 空间 , 对 于 每 个 事件 4 e 和 丰 ， 
定义 一 个 实数 P(A) 与 之 对 应 ， 若 函数 P(:) 满足 条 件 : 

(1) 对 每 个 事件 A, 均 有 0< P(A4A)<1; 

(0 0 

(3) 著 事 件 A1， Ao, … 两 两 互 斥 ， 即 对 于 i,j 二 1,2,…, 1 关 j,， Aihj; 二 0 均 
有 

P(A1U AsU::.)= P(Ai) + P(As)+-:…, 

则 称 P(A) 为 事件 4 的 概率 (probability), 称 (Q, 下, 忆 ) 为 概率 空间 . 

2. 概率 的 性 质 

性 质 1: P(W) = 0, 即 不 可 能 事件 的 概率 为 零 . 

但 性 质 反 过 来 不 成 立 ， 即 P(4) = 0 办 4= 小 

性 质 2: 若 事件 41, A2,…, A 两 两 互 斥 ， 则 有 


P(Ai1U AsU:...UA,)= P(Ai)+ P(Ah;)+-:…+ P(A,), (1.7) 


即 互 斥 事件 和 的 概率 等 于 它们 各 自 概 率 的 和 . 
性 质 3: 对 任 一 事件 4, 均 有 P(4) = P(4)， 
性 质 4: 对 两 个 事件 4 和 已, 寿 4c 也 则 有 


B= (1.8) 


性 质 5: (加 法 公式 ) 对 任意 两 个 事件 4 和 B, 有 


P(AUB)= P(A)+P(B) — P(AB). (1.9) 
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性 质 5 可 以 推广 为 : 


P(A1U AsUAs) = P(A1)+P(A2)+ P(As)— P(AiA2) — P(AiA;) 
PA a (1.10) 


P(AIUAsU::.UA,)=5— 65+ 0+ + (1)" 5,, (1.11) 


其 中 9 = > P(A), ss 


= 1<i<j<n 1<i<j<k<n 
Su = P(4i42 4) 


1.1.3 古典 概 型 


设 随机 事件 5 的 样本 空间 中 只 有 有 限 个 样本 点 , 即 8 = {wi;w2,…, wn), 其 
中 7” 为 样本 点 总 数 ， 每 个 样本 点 wi(i = 1,2,.…,n) 出 现 是 等 可 能 的 ， 并 且 每 次 
试验 有 且 仅 有 一 个 样本 点 发 生 ， 则 称 这 类 现象 为 古典 概 型 (classical probability 
model). 者 事件 4 包含 m 个 样本 点 ， 则 事件 4 的 概率 定义 为 


PP = 外 二 事件 4 包含 的 基本 事件 数 


n 基本 事件 总 数 

例 1.1 设 有 天 个 不 同 的 (可 分 辨 ) 球 ， 每 个 球 都 能 以 同样 的 概率 1/1 落 到 1 个 
格子 (1 之 丰 ) 的 每 一 个 中 ， 且 每 个 格子 可 容纳 任意 多 个 球 ， 试 分 别 求 如 下 两 事件 
A 与 B 的 概率 . 

A: 指定 的 天 个 格子 中 各 有 一 个 球 ; 

B: 存在 大 个 格子 ， 其 中 各 有 一 个 球 . 

解 : 由 于 每 个 球 可 以 落 入 ! 个 格子 中 的 任 一 个 ， 并 且 每 一 个 格子 中 可 落 入 任 
意 多 个 球 , 所 以 有 个 球 落 入 ! 个 格子 中 的 分 布 情况 相当 于 从 ! 个 格子 中 选取 个 
的 可 重复 排列 ， 故 样本 空间 共有 * 种 等 可 能 的 基本 结果 . 

事件 4 所 含 基本 结果 数 应 是 天 个 球 在 指定 的 天 个 格子 中 的 全 排列 数 ， 即 局 ， 


所 以 
kl! 


P(4) = 元 


为 了 算出 事件 B 所 含 的 基本 事件 数 ， 可 设想 分 两 步 进行 ， 因 为 上 个 格子 可 
以 是 任意 选取 的 ， 故 可 先 从 ! 个 格子 中 任意 选 出 有 个 来 ， 选 法 共有 CF 种 ， 对 于 
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每 种 选 定 的 大 个 格子 ， 依 上 述 各 有 一 个 球 的 推理 ， 则 有 局 个 基本 结果 , 故 B 倒 
有 Ckk! 个 基本 结果 .所 以 
PB Te (一 有 JU 

概率 论 的 历史 上 有 一 个 颇 为 著名 的 问题 一 生日 问题 : 求 上 个 同班 同学 没有 
两 人 生日 相同 的 概率 . 

若 把 这 上 个 同学 看 作 例 1.1 中 的 个 球 ， 而 把 一 年 365 天 看 作 格 子 ， 即 
1= 365, 则 上 述 的 P(B) 就 是 所 要 求 的 概率 .例如 ,有 = 40 时 , P(B) = 0.109. 或 者 
换 句 话说 ，40 个 同学 中 至 少 两 个 人 同一 天 过 生日 的 概率 是 ，P(B) = 1 一 0.109 = 
0.891, 其 概率 大 的 出 乎 意料 . 

1.1.4 “几何 概 型 

当 随 机 试验 的 样本 空间 是 某 一 可 度量 的 区 域 ， 并 且 任 意 一 点 落 在 度量 (长 
度 、 面 积 与 体积 ) 相同 的 子 区 域内 是 等 可 能 的 ， 则 事件 4 的 概率 定义 为 
_ S54 _ 构成 事件 4 的 子 区 域 的 度量 

5 样本 空间 的 度量 
这 种 概率 模型 称 为 几何 概 型 (geometric probability model). 

例 1.2 (Buffon( 蒲 丰 ) 投 针 问题 ). 设 平面 上 和 画 有 等 距 为 a 的 一 繁 平行 线 ， 取 一 枚 
长 为 l(1 < oa) 的 针 随 意 扔 到 平面 上 ， 求 针 与 平行 线 相 交 的 概率 ， 

解 : 设 x 表示 针 的 中 心 到 最 近 一 条 平行 线 的 距离 ， 0 表示 针 与 此 直线 间 的 

交角 (图 1.1(a)), 则 (0 z) 完全 决定 针 所 落 的 位 置 ， 针 的 所 有 可 能 的 位 置 为 


Q = {(0,2) :0<0<7, 0< zz 5}. 














P(A) (1.13) 








它 可 用 0 一 zx 平面 上 的 一 个 矩形 来 表示 (图 1.1(b)). 针 与 平行 线 相交 的 充分 必要 
条 件 是 x < 3sin9, 即 图 1.1(b) 中 阴影 部 分 ， 它 的 面积 》 


a ee 
0 2 


因此 ， 帮 把 往 平 面 上 随意 扔 一 枚 针 理 解 为 2 内 的 任 一 点 为 等 可 能 ， 且 记 针 与 任 
一 平行 线 相交 的 事件 为 4, 则 
Sa 2 


P(4)=- 学 = 二 (1.14) 
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图 11: Bufton 投 针 的 几何 概率 


由 式 (1.14) 可 以 利用 投 针 试 验 计 算 7 值 . 设 随机 投 针 n 次 ， 其 中 次 针线 
相交 ， 当 n 充分 大 时 ， 可 用 频率 4 作为 概率 p 的 估计 值 ， 从 而 求 得 7 的 估计 值 


为 
2n, 


0 
根据 公式 (1.15), 历史 上 曾 有 一 些 学 者 作 了 随机 投 针 试验 ， 并 得 到 7 的 估计 值 


1.1.5 “条 件 概率 


研究 随机 事件 之 间 的 关系 时 , 在 已 知 某 些 事件 发 生 的 条 件 下 考虑 另 一 些 事件 
发 生 的 概率 规律 有 无 变化 及 如 何 变 化 ， 是 十 分 重要 的 . 

设 4 和 B 是 两 个 事件 ， 且 P(B) > 0, 称 
P(AB) 
P(B) 
为 在 事件 B 发 生 的 条 件 下 ， 事 件 4 发 生 的 条 件 概率 (conditional probability). 

例如 ， 某 集体 中 有 NN 个 男人 和 M 个 女人 ， 其 中 患 色盲 者 男性 n 人 ， 女 性 
m 人 . 用 0 表示 该 集体 ， 4 表示 其 中 全 体 女 性 的 集合 ， B 表示 其 中 全 体 色盲 
者 的 集合 ， 如 果 从 2 中 随意 抽取 一 人 ， 则 这 个 人 分 别 是 女性 、 色 盲 者 和 同时 既 
为 女性 又 是 色盲 者 的 概率 分 别 为 

AI 770 十 多 m 


TN 


如 果 限 定 只 从 女性 中 随机 抽取 一 人 ( 即 事 件 4 已 发 生 ), 那么 这 个 女人 为 色 
言 者 的 (条 件 ) 概率 


个 == (1.15) 





P(AIB) = 





(1.16) 











P(BI) = 元 = 
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条 件 概 率 也 是 概率 ， 它 满足 概率 公理 化 定义 中 的 三 条 ， 即 

(1) 对 每 个 事件 4, 均 有 0 < P(A4IB)<1; 

(2) PIO B)= 1; 

(3) 知事 件 A1, 42,…, 两 两 互 斥 ， 即 对 于 67 = 二 1,2,…, i 关 j， 4ih; = 和 有 


P(ATU A B= PAB)+ AlBITt 


并 且 对 于 在 前 面 给 出 的 概率 性 质 和 公式 ， 也 都 适用 于 条 件 概率 . 例如 ,对 任意 的 
事件 A1, 4A2, 有 


P((A1U A2)|B) = P(A1NB) + P(A2NB) — P(A1A2NB). 


1.1.6 ”概率 的 乘法 公式 、 全 概率 公式 、 Bayes 公式 
由 条 件 概率 公式 ， 得 


P(AB) = P(A|IB)P(B) = P(BIA)P(A). (1.17) 
称 式 (1.17) 为 概率 的 乘法 公式 (multiplication formula). 
乘法 公式 的 推广 ， 对 于 任何 正 整 数 n 二 2, 当 P(A142:…An_1) > 0 时， 有 


pla A A Pl) PAA A A A AAA ad) 
(1.18) 
定义 1.3 如 果 事 件 组 Bi, B,, Re 满足 


(1) Bi Ba 两 两 互 斥 ， 即 Bi B; = 0,1i#7, i,j=1,2,..., 有 ££ P(B;) > 0， 
ee 


(2) BiU Bay...= 0, 
则 称 事件 组 B1, Bs,.… 是 样本 空间 Q 的 一 个 划分 . 
设 B1, Bo,.… 是 样本 空间 9 的 一 个 划分 ， 4 为 任 一 事件 ， 则 


-DP P(A|B,). (1.19) 


称 式 (1.19) 为 全 概率 公式 (formula of total probability). 


1.1 随机 事件 与 概率 9 


设 Bi, Bo,… 是 样本 空间 9 的 一 个 划分 ， 则 对 任 一 事件 4 (P(A) > 0), 有 
P(Bi|A) = Te a (1.20) 
EPA 


称 式 (1.20) 为 Bayes ( 贝 叶 斯 ) 公式 (Bayes formula), 称 式 中 的 P(B;)(i= 1,2,.….) 
为 先 验 概率 ， 称 P(Bi|A) (i = 1,2,.…) 为 后 验 概率 . 

在 实际 中 ， 常 取 对 样本 空间 9 的 有 限 划分 Bi, B2,…, Bn,( 例 如 B 与 BB 就 
构成 样本 空间 9 的 一 个 划分 )” Bi 常 被 视 为 导致 试验 结果 4 发 生 的 “原因 ”， 
而 P(Bi;) 表示 各 种 “原因 ”发 生 的 可 能 性 大 小 ， 故 称 为 先 验 概率 ， P(Bi|4) 则 
反应 当 试验 产生 了 结果 4 之 后 ， 再 对 各 种 “原因 ”概率 的 新 认识 ， 故 称 为 后 验 概 
例 1.3 假定 用 血清 甲 胎 和 蛋白 法 诊断 肝癌 用 C 表示 被 检验 者 有 肝癌 这 一 事件 ， 
用 4 表示 被 检验 者 为 阳性 反应 这 一 事件 . 设 P(A|IC) = 0.95, P(AIC) = 0.90. 
车 某 人 群 中 P(C) = 0.0004, 现 有 一 人 呈 阳 性 反应 ， 求 此 人 确 为 肝癌 患者 的 概率 
P(C|A). 

解 ， 由 Bayes 公式 ， 有 

P(C)P(AIC) 
P(C)P(AIC) + P(C)P(AIC) 
0.0004 x 0.95 


二 一 一 一 ~ 一 0.0038. 
0.0004 x 0.95 十 0.9996 x 0.10 


训令 六 类 


1.1.7 ”独立 事件 

如 果 两 事件 4, B 的 积 事 件 发 生 的 概率 等 于 这 两 个 事件 的 概率 的 乘积 ， 即 

P(AB) = P(A)P(B). 

则 称 事件 4 与 事件 B 是 相互 独立 的 (mutually independent). 

性 质 : 若 事件 4 与 事件 B 相互 独立 , 则 A 与 B, 4 与 B, 4 与 B 也 相互 独 
YE: 

推广 : 设 4 4A2,…, A 为 nn 个 事件 ，n > 2. 如 果 对 于 其 中 的 任意 上 (KE 二 2) 
个 事件 4 4 4;,， l<ii<i < <ir < nn, 等 式 
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均 成 立 ， 则 称 n 个 事件 A1, 42,…, A 相互 独立 . 

多 个 相互 独立 事件 有 如 下 性 质 : 

(1) 若 事件 41, 42,…, A 相互 独立 ， 则 4 42,…, 4 中 任意 大 (5 二 2) 个 
事件 4 Aj,…,Ai,1<ii<is<…<ii<n, 也 相互 独立 ; 

(2) 若 事件 41, 42,…, A 相互 独立 ， 则 事件 Bi1, Bo,…, Bn 也 相互 独立 . 其 
中 B; 或 为 Ai; 或 为 Ai, Ce 

注意 : 若 41, 42,…, 4, 相互 独立 则 有 A1, 42,…, A 两 两 相互 独立 , 反 过 来 
若 41， 42， ”3 An, 两 两 相互 独立 则 不 一 定 有 41， 42， 2 An, 相互 独立 . 事实 上 ， 
n 个 事件 相互 独立 ， 则 要 有 C2 十 003 十 … 十 O07 二 27 一 n 一 1 个 等 式 成 立 ; 而 两 
两 独立 只 需 有 0? = 人 个 等 式 成 立 . 
例 1.4 设 有 4 张 上 片 其 中 3 张 上 分 别 记 有 字母 4 和 B,B 和 CC,A 和 和 0, 第 4 
张 是 空白 .从 中 随机 机 取 一 张 ， 就 用 A, (B 和 C0) 分别 记 事件 “机 到 的 卡片 上 有 
字母 4A, (B 和 0)”, 则 显然 有 








P(A) = P(B) = P(C) =3, 


P(A4B) = P(AC) = P(BC) = 7 
P(ABC) = 0 # P(A)P(B)P(C). 


因此 ， A, B,C 三 个 事件 中 任意 两 个 相互 独立 ， 但 这 三 个 事件 并 不 相互 独立 ， 
1.1.8 九重 Bernoulli 试验 及 其 概率 计算 
如 果 一 个 随机 试验 只 有 两 种 可 能 的 结果 4 和 4, 并 且 


P(A)=p, P(A)=1-p 


q, 


其 中 0 <p < 1 则 称 此 试验 为 Bernoulli ( 伯 努 利 ) 试验 (Bernoulli trial). Bernoulli 
试验 独立 重复 进行 n 次 ， 称 为 n 重 Bernoulli 试验 . 

例如 ， 从 一 批 产品 中 检验 次 品 ， 在 其 中 进行 有 放 回 抽样 n 次 ， 抽 到 次 品 称 为 
“成 功 ', 抽 到 正品 称 为 “失败 ”, 这 就 是 n 重 Bernoulli 试验 . 


设 


Ax = {n 重 Bernoulli 试验 中 4 出 现 上 有 次}, 


1.2 随机 变量 及 其 分 布 二 


则 


这 就 是 著名 的 二 项 分 布 ， 常 记 作 妃 (m 让 





1.2 ”随机 变量 及 其 分 布 
1.2.1 ”随机 变量 的 定义 


定义 1.4 设 妃 是 随机 试验 ，9 是 样本 空间 ， 如 果 对 于 每 一 个 w € 0, 都 有 一 个 
确定 的 实数 X(w) 与 之 对 应 ， 若 对 于 任意 实数 TE R, 有 {w:X(w)<x}erF, 
则 称 Q 上 的 单 值 实 函数 X(w) 为 一 个 随机 变量 (random variable). 

从 定义 可 知 随机 变量 是 定义 在 样本 空间 2 上 ， 取 值 在 实数 域 上 的 函数 . 由 
于 它 的 自 变 量 是 随机 试验 的 结果 ， 而 随机 试验 结果 的 出 现 具有 随机 性 ， 因 此 ， 随 
机 变量 的 取 值 也 具有 一 定 的 随机 性 ， 这 是 随机 变量 与 普通 函数 的 不 同 之 处 . 














1.2.2 ”随机 变量 的 分 布 函数 

描述 一 个 随机 变量 , 不仅 要 说 明 它 能 够 取 那 些 值 ， 而 且 还 要 关心 它 取 这 些 值 
的 概率 因此， 引入 随机 变量 的 分 布 函 数 的 概念 . 
定义 1.5 设 久 是 一 个 随机 变量 ， 对 任意 的 实数 x, 令 


F(z)= P{X < zx}, rz€(—0,+00), (1.22) 


则 称 已 (Z) 为 随机 变量 X 的 分 布 函数 (distribution function), 也 称 为 概率 累积 函 
数 (probability cumulative function). 

从 直观 上 看 , 分 布 函数 (x) 是 一 个 定义 在 (一 00, 十 00) 上 的 实 值 函 数 ，F(x) 
在 点 2 处 取 值 为 随机 变量 X 落 在 区 间 (一 0o, x] 上 的 概率 . 

分 布 函 数 具 有 以 下 性 质 

(1) 0<F(z)<1; 
(2) F(z) 是 单调 不 减 函 数 ， 即 当 Zi < za 时 ， (zi < 了 F(z2); 
(3) f(—00) = lim F(z) = 0, 下 (二 oo) = ,im F(x)=1; 
(4) F(z) 是 右 连续 的 函数 ， 即 lim F(z) = F(z0),V zo E 已 均 成 立 ; 


TT0 


4 
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(5) P{a < X < 6} = F0)— Pla); 

(6) P{X >a}=1— P{X <a}=1— F(a). 

在 理论 上 已 经 证 明 : 如 果 一 个 函数 满足 上 述 的 前 四 条 性 质 ， 则 它 一 定 是 茶 个 
随机 变量 的 分 布 函数 . 
1.2.3 ”离散 型 随机 变量 


1. 离散 型 随机 变量 
定义 1.6 如 果 随 机 变量 X 的 全 部 可 能 取 值 只 有 有 限 多 个 或 可 列 无 穷 多 个 ， 则 称 
X 为 离散 型 随机 变量 . 
定义 1.7 对 于 离散 型 随机 变量 区 可 能 取 值 为 ZK 的 概率 为 


则 称 式 (1.23) 为 离散 型 随机 变量 X 的 分 布 律 . 
离散 型 随机 变量 的 分 布 律 具 px 有 以 下 性 质 : 











(2) Pe =1. 
可 用 表 1.1 来 表示 其 分 布 律 . 
表 1.1: 分 布 律 
X 21 Xo 1 六 交 
Dk 1 p2 Dk 
离散 型 随机 变量 的 分 布 函数 为 
天 =I eo DIX = (1.24) 


2. 常见 的 离散 型 分 布 
(1) 两 点 分 布 (0 一 1 分 布 ) 
耕 随机 变量 X 的 分 布 律 为 : 


PPIX (= (1.25) 
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则 称 X 服从 参数 为 p 的 两 点 分 布 ， 记 作 X ~ B(1,p). 其 分 布 函数 为 


0, Z < 0， 
F(z)= 1-p, 0<z<1, (1.26) 
1, ya 


(2) Bernoulli 试验 ， 二 项 分 布 

若 随机 变量 X 的 分 布 律 为 
P{X=k}= Op (1 pp" *, k=0,1,..,n, (1.27) 
则 称 X 服从 参数 为 wp 的 二 项 分 布 (binomial distribution), 记 为 X ~ B(n,p)， 
其 中 Ckp*(1 一 p)”“* 是 mn 重 Bernoulli 试验 中 事件 4 恰好 发 生 天 次 的 概率 ， 其 


分 布 函数 为 攻 





Ps OW (sD, (1.28) 
k=0 
其 中 |x| 表示 下 取 整 ， 即 不 超过 z 的 最 大 整数 ， 下 同 . 
(3) Poisson 分 布 
若 随 机 变量 X 的 分 布 律 为 
PIX= 同 = Nh (1.29) 


则 称 X 服从 参数 为 入 的 Poisson ( 泊 松 ) 分 布 (Poisson distribution), 记 作 X ~ 
P(A) 或 X~7( 和 ), 其 中 入 > 0 为 常数 ， 其 分 布 函数 为 


Lz] Ae- 
Rls i (1.30) 
k=0 


定理 1.1 (Poisson 定理 ) 
在 Bernoulli 试验 中 ， 以 pn 代表 事件 4 在 试验 中 出 现 的 概率 ， 它 与 试验 总 
数 nn 有关， 如 果 npn 一 入 则 当 n 一 00 时 ， 有 





入 ke 一 ^ 
lim Caox (1 一 Dj" 一 (1.31) 
当 n 很 大 且 pn 很 小 时 ， 二 项 分 布 可 以 用 Poisson 分 布 来 近似 代替 ， 即 
太一 入 
6 (1.32) 


kl 
其 中 入 = npn. 
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1.2.4 ”连续 型 随机 变量 


1. 连续 型 随机 变量 
定义 1.8 对 于 随机 变量 X, 如 果 存 在 一 个 定义 在 (一 00, 十 co) 上 的 非 负 函数 帮 z)， 
使 得 对 于 任意 实数 zx ， 总 有 


F(z)= P{X < 7z}= 三 f(t)dt, 一 co<Z< 十 co， (1.33) 


则 称 X 为 连续 型 随机 变量 ， f(7X) 为 X 的 概率 密度 函数 (probability density 
function), 简称 概率 密度 ， 
We 
人 
。 对 于 任意 的 实数 w wa < 中 ,都 有 Pfa<X< 纹 = 六 f(z 
(3) 若 f(z) 在 点 x 处 连续 ， 则 f(z) = (7x); 
(4) 对 任意 实数 w 总 有 P{X = a} =0. 


2. 常见 的 连续 型 分 布 


(1) 均匀 分 布 
若 随 机 变量 X 的 概率 密度 函数 为 
1 
人 < < b, 
| 天 (1.34) 
0， 其 它 ， 


则 称 X 服从 区 间 [a, 6| 上 的 均匀 分 布 (uniform distribution), 记 为 X ~ Ula,90|. 
其 分 布 函数 为 





0, Z < Q， 
F(z) = ee a<x<b, (1.35) 
1, rb. 


(2) 指数 分 布 
知 随 机 变量 X 的 概率 密度 函数 为 
| Xe xz>0, 


0， 2Z < 0， 


(1.36) 
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其 中 入 > 0 为 常数 , 则 称 X 服从 参数 为 和 的 指数 分 布 (exponential distribution). 








其 分 布 函 数 为 
ro 人 0 (Lr 
0， 2Z < 0. 
(3) 正 态 分 布 
若 随机 变量 X 的 概率 密度 函数 为 
九 (他 ) 言 — exp (局 ) ， 一 co<Z< 十 co， (1.38) 


其 中 4,o(o > 0) 是 两 个 常数 ， 则 称 X 服从 参数 为 J,o 的 正 态 分 布 (normal 
distribution), 也 称 为 Gauss 分 布 ， 记 作 和 ~ N(1,0o2). 

图 1.2 描绘 的 是 参数 为 1 二 0,0c=1,4=0,0==0.5 和 ==2,0o = 0.5 的 正 
态 分 布 的 概率 密度 函数 图 . 











=0,G=0.5 


























图 1.2: 正 态 分 布 的 概率 密度 函数 


如 果 改 变 / 值 ， 只 会 改变 正 态 分 布 图 形 的 位 置 ， 而 不 会 改变 它 的 形状 .如 
果 改 变 o 值 ， 则 会 改变 正 态 分 布 的 形状 . 例如 ， 在 图 1.2 中 ， 可 以 看 到 ， 改 变 1 
值 ， 实 际 上 在 改变 正 态 分 布 的 中 心 位 置 ，/ 值 变 小 ,图 形 向 左 移 动 ，/ 值 变 大 ， 
图 形 向 右 移动 ， 而 改变 o, 则 改变 图 形 的 形状 ， c 的 值 越 小 ， 其 图 形 越 陡 ; 而 o 
越 大 ， 则 图 形 越 平 坦 . 当 我 们 讲 过 数学 期 望 与 方差 的 意义 、 正 态 随 机 变量 的 数学 
期 望 与 方差 后 ， 更 容易 理解 这 一 点 . 
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当 4=0,0=1 时 ，X ~ NN(0,1), 则 称 X 服 从 标准 正 态 分 布 其 概率 密度 
函数 为 





(FR) = -ep (= 于 } ， 一 00<ZX<+oo. (1.39) 
其 分 布 函数 为 加 
和 (z) = a eo- dt, (1.40) 


有 B(-z)=1— B®(7). 
图 1.3 给 出 标准 正 态 分 布 的 概率 密度 曲线 ， 以 及 对 应 区 间 上 积分 (相应 的 





不 


0.15 上 上 本 
99.7% 


> 
0.1F 了 
95.4% 
0.05 上 了 
68.3% 
0 | 
1 2 3 4 


-4 -3 -2 -1 0 




















图 1.3: 标准 正 态 分 布 和 对 应 区 间 上 积分 (面积 ) 的 百分比 


面积 ) 的 百分比 . 图 1.3 表明 , 当 X ~ N(0,1) 时 ，P{-1 < XX < 1}= 0.683, 
P{-2<X<2}=0.954, P{-3<X<3}= 0.997, 这 些 数量 指标 在 实际 中 是 常 
用 的 ， 应 该 牢记 . 

这 个 概念 可 以 推广 到 一 般 正 态 分 布 ， 也 就 是 说 ， 从 1 一 30 到 十 30 的 区 间 
上 概率 密度 曲线 之 下 的 面积 占 总 面积 的 99.7%, 这 就 是 著名 的 3c 原则 . 

若 和 ~ No ), 则 











四 1 zt 一 从 2 一 
ro- Bi (SE) -et 0 
一 co TO Oo 


图 1.4 给 出 了 正 态 分 布 的 概率 密度 函数 与 分 布 函数 之 间 的 关系 ， 其 中 曲线 为 概 
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图 1.4: 概率 密度 函数 与 分 布 函数 之 间 的 关系 
率 密度 函数 f(z), 而 阴影 部 分 则 是 分 布 函数 P(x). 由 此 容易 得 到 


Pn < Xo -Pe)- Po) -8 (Se) -s(t) (1.42) 





(图 1.4 中 的 概率 密度 函数 是 标准 正 态 分 布 的 概率 密度 函数 ). 
设 随 机 变量 X ~ N(0,1), 对 任 给 的 0 < a < 1, 称 满足 条 件 


P{X > 和 = ) gzZ)d7Z = a (1.43) 


的 点 Zo 为 标准 正 态 分 布 的 上 a 分 位 点 . 

图 1.5 给 出 了 标准 正 态 分 布 的 上 a 分 位 点 2Z。 的 几何 意义 ， 其 中 阴影 部 分 
面积 的 值 为 a. 

3. 随机 变量 的 函数 的 分 布 

若 随机 变量 X 具有 概率 密度 函数 fx(7), -co < x < +oco, 又 设 g(z) 处 处 可 
导 且 9(z) 不 变 号 ， 则 站 = 9(X) 是 连续 型 随机 变量 ， 其 概率 密度 函数 为 : 

fx (hI (Y), oa<y<p, 
fy(y) = | i 

其 中 Q: 一 min{g(—00), g(00)}, b max{g(—00), g(00)}, 光 二 h(y) 为 4 二 9(Z) 的 
反 郴 数 . 
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图 1.5: 标准 正 态 分 布 的 上 a 分 位 点 


若 g(x) 是 非 单调 函数 ， 设 随机 变量 X 的 分 布 函数 为 FEx(z), 概率 密度 为 
fx(7X), Y= g(XX) 的 分 布 函数 为 Fy(y), 概率 密度 为 fy(y), 则 


mw)= | ar 


由 此 再 进一步 求 出 fy(y), 不 过 需要 具体 问题 具体 分 析 . 
1.2.5 ”随机 向 量 


1. 随机 向 量 的 定义 
定义 1.9 如 果 X 和 了 是 定义 在 同一 概率 空间 (Q, 太 , P) 上 的 两 个 随机 变量 ， 称 
(六 ,Y) 为 二 维 随机 向 量 (random wvector), 并 称 X 和 了 是 二 维 随 机 向 量 (X,Y) 
的 两 个 分 量 . 

二 维 随机 向 量 (X,Y) 是 定义 在 样本 空间 Q 上 , 取 值 于 R* 上 的 函数 . 类 似 ， 
可 定义 n 维 随机 向 量 . 
定义 1.10 设 QQ 为 样本 空间 ， Xi = Xi(w), Xo 二 (ww),…, X= 二 Xn(w) 是 0 
上 的 nn 个 随机 变量 ， 则 由 它们 构成 的 n 维 向 量 (Xi XX2,…,Xn) 称 为 n 维 随机 


向 量 (n 一 dimensional random vector), 称 Xi 为 六 的 第 i 个 分 量 (component). 





2. 随机 向 量 的 联合 分 布 函数 
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定义 1.11 设 (X,Y》) 是 定义 在 (三 , 忆 ) 上 的 随机 向 量 ， 对 任意 的 (1,y) € 忆 
二 元 蚁 数 
F(x,y) = P{w: X(W) < x,y(w) < YY}, (1.44) 
称 为 (X,Y) 的 联合 分 布 函 数 (joint distribution function), 其 中 {X 之 zx,Y < vy} 
表示 事件 {X < xX} 与 事件 {Y < vy} 的 积 事件 . 
设 Xi1, 六 2,… ,Xn 有 是 一 个 风 维 随机 向 量 ， 对 任意 的 (21 2,Zn) E RY,n 
F(z1, To Tn) = P{w: XI(wW) < zi, Xo(W) < 2 Kn(wW) < zn,}, (1.45) 
称 为 (X1, XX2,……, Xn) 的 联合 分 布 池 数 . 
3. 分 布 函 数 的 性 质 
(1) 对 于 任意 固定 的 2 当 Za > Z1 时 ， F(x2,Y) > F(x1,Y). 对 于 任意 固定 的 
2 当 yo > 时 ， 了 (X,Yy2) 过 ED) 即 了 (x,y) 对 每 个 自 变 量 是 单调 不 减 的 . 
(2) 0 < F(z,y) < 1, 且 对 于 任意 固定 的 y, (一 00,Yy) = 0. 对 于 任意 固定 的 
xz, F(z,—00) = 0, 下 (一 co 一 co) = 0, 下 (十 oo 十 co) = 1 
(3) P(x,y) = P(r+0,Y), F(X,Y) = P(r,Yy +0), RP F(X,Y) x 于 2 右 连 续 , 
也 关于 Yy 右 连 续 . 
(4) 对 于 任意 (zu yi (za po) XZ1 < za, yi < yo, 下 述 不 等 式 
F(x2,y2) — Fr2,y) — F(x,Yy2) + Pr,Y)>0 
由 以 上 性 质 可 得 以 下 结论 . 
随机 点 (X,Y) 落 在 矩形 域 {x1 < x < zx2,W1 <Yy < 内 的 概率 为 
P{zi1 <X < <Y <y}= Fr,Yy) — Fv) — F(x1,Yy2) + F(T Yi). 
(1.46) 
4. 离散 型 二 维 随 机 向 量 


定义 1.12 如 果 二 维 随 机 向 量 (X,， 了 了 ) 的 每 个 分 量 都 是 离散 型 随机 变量 ， 则 称 
(XX, 了) 是 二 维 离散 型 随机 向 量 ， 
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定义 1.13 设 二 维 离散 型 随机 向 量 (X,Y) 所 有 的 可 能 取 值 为 (Zi yj), i 二 1,2,…….， 








P{X Lay Yj} Pij; 1,7 一 2 (1.47) 


则 称 式 (1.47) 为 离散 型 随机 向 量 (X,Y) 的 分 布 律 (联合 分 布 律 ) 
D> 
i 
离散 型 随机 向 量 (X,Y) 的 分 布 函 数 为 : 
Ti<TYyji<Y 
5. 连续 型 二 维 随机 向 量 


定义 1.14 如 果 对 于 二 维 随机 向 量 (XX,Y) 的 分 布 函数 下 (7,y), 存在 非 负 的 函数 
f (x,y), 使 对 于 任意 的 x,y， 有 


F(x,y) = | f (u,v) du dv, (1.48) 

则 称 (X,Y) 有 是 连续 型 的 二 维 随机 向 量 ， 函 数 f(x,y) 称 为 二 维 随机 向 量 (X,Y) 
的 概率 密度 函数 . 

概率 密度 函数 有 如 下 性 质 : 

(1) f(x,y) >0,vVzr,yeR; 

十 co 十 co 
o / f(ry) drdy = F(to0, +00)=1; 
(3) 在 f(x,y) 的 连续 点 处 有 


于 (5 功 
OrOvy 





一 f(z, y); 
(4) 随机 点 (X,Y) 落 在 平面 区 域 G 内 的 概率 为 
P{(X,Y) eG}= /| f(x,y)drdy. 
1 
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6. 边缘 分 布 
X,Y 的 边缘 分 布 (marginal distribution) 函数 分 别 是 


Fx(7) 
Fy(y) 


P{X<zxz}= P{X<z,Y <+o00}= F(x,+00), (1.49) 
P{Y <y}= P{X <+o,Y <y}= F(t+00,Yy). (1.50) 


者 (X,Y) 为 离散 型 随机 向 量 ，X 与 了 的 边缘 分 布 律 及 边缘 分 布 函数 分 别 


为 
P{X=7i} = > 全 1 = 1,2,.…，, (1.51) 
j=1 

P{Y =%} = 2 Ds le (1.52) 
Fx(x) = F(zx,+00)= > > (1.53) 

2 
Fy(y) = F(+o0,Y) a > (1.54) 

i=1 y;<Yy 


者 (X,Y) 为 连续 型 随机 向 量 ， XX 和 了 的 边缘 概率 密度 分 别 为 : 


pa = ffl wa (1.55) 
hg = {fea (1.50) 

其 边缘 分 布 函 数 分 别 为 
oy ax | owas = fro (1.57) 


7. 常见 二 维 随机 向 量 的 分 布 
(1) 二 维 均 匀 分 布 
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者 (X,Y) 具有 如 下 概率 密度 函数 


4 也) €D, 
tn- 0 
0， 其 它 . 


其 中 4 为 平面 区 域 D 的 面积 值 ， 则 称 此 二 维 连 续 型 随机 向 量 (X,Y) 在 区 域 D 
内 服从 二 维 均匀 分 布 . 

(2) 二 维 正 态 分 布 N(Ua Ha 07, 03, 0) 

如 果 (X,Y) 具有 如 下 概率 密度 函数 

1 
f(x,y) = 了 
2 2 

op 人 -二 上 + 和 bb 

—00 < 2 < 十 co, 一 co <Y<+o. (1.60) 
其 中 jw, pa, ol > 0, 02 > 0, |p| < 1 为 实数 ， 则 称 此 二 维 连 续 型 随机 向 量 (X,Y) 
服从 参数 为 1i pa 01,02,p 的 二 维 正 态 分 布 ， 记 作 (X,Y) ~ NO Ha 037,03,7)， 
同时 称 (X,Y) 为 二 维 正 态 随机 向 量 . 

图 1.6 绘 出 了 p 取 不 同 值 的 情况 ， 在 图 中 ji = 0 如 = 0, ol=1os = 2 
当 p 一 0 时 ， 随 机 变量 X 与 随机 变量 Y 是 独立 的 ， 当 p 了 0 时 ， 随 机 变量 X 与 
随机 变量 Y 相关 (不 独立 ), 并 且 当 |p| 越 接 近 1 时 ， 相 关 程 度 越 密切 . 








1.3 ”随机 变量 的 数字 特征 
1.3.1 ”数学 期 望 


定义 1.15 设 离散 型 随机 变量 X 的 分 布 律 为 P{X = zi} 二 pi, i 二 1,2,.…, 闭 级 
数 2 ,|zilpi 收敛 ,， 则 称 级 数 > Tipi 的 和 为 随机 变量 X 的 数学 期 望 (mathematical 
expectation), 记 为 B( 关 ), 即 








E(X) = 2 Tip (1.61) 


设 连续 型 随机 变量 X 的 概率 密度 函数 为 (7), 车 积分 > |z|f(z)dzx 收敛 ， 则 
称 积分 厂 zjJ(z)dz 的 值 为 随机 变量 X 的 数学 期 望 ， 记 为 妃 (X),， 即 


B00)=/ far (1.62) 











1.3 随机 变量 的 数字 特征 














: 二 维 正 态 分 布 p 取 不 同 值 的 情况 
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五 (X) 又 称 为 均值 (mean). 

数学 期 望 代 表 了 随机 变量 取 值 的 平均 值 ， 是 一 个 重要 的 数字 特征 . 数学 期 户 
具有 如 下 性 质 : 

(1) 车 c 是 常数 ， 则 EB(c) = c; 

(2) BlaX + 0Y) = aEg(X)+LE(Y), 其 中 心 2 为 任意 常数 ; 

(3) 若 X,Y 相互 独立 ， 则 E(XY) = E(X)E(Y). 

从 数学 期 望 的 意义 (平均 值 ), 很 容易 理解 上 述 3 条 性 质 的 意义 . 

如 果 Xi X2……,Xn 是 7 个 随机 变量 ， 反 复 运用 性 质 (2), 得 到 


万 oj = ya (1.63) 


其 中 ai(i = 1,2,..…,n) 是 常数 ， 


1.3.2 ”方差 


定义 1.16 设 X 为 随机 变量 , 如 果 马 {[X 一 巨 (X)P?} 存在 , 则 称 巨 {[X 一 已 (X) 2 
为 外 的 方差 (variance), 记 为 Var( 关 ), 即 


Var(X)= E{[X— E(X)]}, (1.64) 


并 称 VVar(X) 为 X 的 标准 差 (standard deviation) 或 均 方差 (root mean square). 

方差 是 用 来 描述 随机 变量 取 值 相对 于 均值 的 离散 程度 的 一 个 量 , 也 是 非常 重 
要 的 数字 特征 . 方差 有 如 下 性 质 : 

(1) 和 若 < 是 常数 ， 则 Var(c) = 0; 

(2) Var(aX 二 中 =aVar(X), 其 中 ob 为 任意 常数 ; 

(3) 如 果 X,Y 相互 独立 ， 则 Var(X 十 Y) =Var(X) 二 Var(Y). 

从 方差 的 意义 (离散 程度 ), 很 容易 理解 这 3 条 性 质 的 意义 . 

可 以 证 明 : 

Var(X) = E(X’*)— [BE(X)]. (1.65) 


式 (1.65) 可 作为 方差 的 计算 公式 . 


1.3 随机 变量 的 数字 特征 
1.3.3 ” 几 种 常用 随机 变量 分 布 的 期 望 与 方差 
(1) 若 X 服从 参数 为 p 的 两 点 分 布 B(1,p), 其 中 0<p<1, 则 
P(X)=p, Var(X)=p(1—p). 
(2) 若 X 服从 参数 为 n,p 的 二 项 分 布 B(n,p),0<p<1, 则 
P(X)=np, Var(X)= np(l—p). 
(3) 若 六 服从 参数 为 和 的 Poisson 分 布 P( 和 ), 则 
E(X)=M, Var(X) = 入. 
(4) 若 X 服从 参数 为 wz 的 均匀 分 布 Cla, 路 则 


Q 十 5—a) 
本 Var(X ) = 二 








B(X) = 


(5) 看 X 服从 参数 为 的 指数 分 布 ， 则 
E(X)= > Var(X)= 广 
(6) 若 X 服从 参数 为 1,o 的 正 态 分 布 NU c ), 则 


E(X)=h, Var(X)=0°. 
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(1.66) 


(1.67) 


(1.68) 


(1.69) 


(1.70) 


(1.71) 


由 式 (1.71), 以 及 期 望 和 方差 的 意义 ， 可 以 进一步 帮助 我 们 理解 图 1.2 的 意义 . 


1.3.4 ” 协 方 差 与 相关 系数 
1. 协 方 差 


设 X,Y 为 两 个 随机 变量 , 称 B{|X 一 (X)][Y 一 B(Y)} 为 X 和 YY 的 协 方 


差 (covariance), 记 为 Cov(X,Y), 即 


Cov(X,Y) = E{[X — E(X)IY ~ E(Y)}. 


(Ly) 


协 方 差 和 下 面 介绍 的 相关 系数 都 是 描述 随机 变量 X 与 随机 变量 Y 之 间 的 线性 


联系 程度 的 数字 量 . 
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协 方差 具有 如 下 基本 性 质 : 
(1) Cov(X,Y)= Cov(Y,X); 
(2) Cov(aX + b,cY +d = acCov(X,Y), 其 中 abc,d 为 任意 常数 ; 
(3) Cov(Xi+ X»,Y)= Cov(Xi1,Y) + Cov(X»,Y); 
(4) Cov(X,Y) = E(XY) -BE(X)E(Y), 特别 地 ， 当 X 和 了 相互 独立 时 ， 有 
Cov(X,Y)=0; 
(5) |Cov(X, Y)| < VVar(X)V Var(Y); 
(6) Cov(X,X)= Var(X). 
如 果 Xi 2,… ,Xn 是 n 个 随机 变量 ， 利 用 上 述 性 质 得 到 


Var (> a] 三 y > aia;Cov(Xi, Xj), (1.73) 
i=1 


i=1 j=1 


变量 ， 则 式 (1.73) 可 改写 为 


Var > a] = > a2 Var(X;). (1.74) 
2. 相关 系数 
当 Var(X) > 0, Var(Y) > 0 时 ， 称 
Cov(X,Y) 
Ps ee 











为 XX 与 Y 的 相关 系数 (coefficient of correlation), 它 是 无 量 纲 的 量 . 其 基本 性 质 
为 : 

(1) |p(X,Y)| < 1; |p(X,Y 了 )| = 1 的 充 要 条 件 为 六 与 Y 之 间 有 线性 关系 ， 
即 存在 常数 a,5 (a 关 0) 使 得 
P{Y =aX+0}=1. 


具体 地 a > 0 时 ， 对 应 p(X, 了 = 1; a <0 时 ， 对 应 p(X,Y) = 一 1. 
(2) 车头 与 Y 相互 独立 且 Var(X), Var(Y) 存在 , 则 p(XX,Y) = 0; 特别 地 当 
X 与 Y 均 为 正 态 分 布 时 ， X 与 Y 相互 独立 的 充 要 条 件 为 p(X,Y) = 0. 
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对 于 二 维 正 态 随机 变量 X, 六, 其 密度 函数 (1.60) 中 的 pi 表示 X 的 均值 ， 
/2 表示 了 的 均值 ， ci 表示 X 的 方差 ， 03 表示 了 的 方差 ，p 表示 X 与 了 的 
相关 系数 . 这 就 是 为 什么 在 图 1.6 中 ， 当 |p| 越 接 近 于 1 时 ， 其 图 形 越 瘤 . 


1.3.5 ”和 矩 与 协 方差 矩阵 


1. 矩 
设 随机 变量 X 有 分 布 函数 (zx), 对 任意 给 定 的 正 整 数 , 若 (|X|*) 存在 ， 
则 称 本 
ok 一 五 (X?) 中 redF (zx) (1.76) 


一 De 


为 X 的 让 阶 原点 矩 (moment about origin). 对 于 上 > 1, 车 召 (|IX|*) 存在 ， 则 称 
mr=B(K-EOON= 人 Ge-PCO)arg (1.77) 


为 和 的 大 阶 中 心 矩 (moment about centre). 

窍 是 广泛 应 用 的 一 类 数字 特征 , 均值 与 方差 分 别 就 是 一 阶 原点 矩 和 二 阶 中 心 
矩 . 

设 分 布 函数 (x) 有 中 心 逢 jw2 = BE(X 一 BB(X))2, 13 = B(X 一 忆 (X))3, 则 称 


3 


为 偏 度 系数 (coefficient of skewness). 

偏 度 系 数 是 一 个 无 量 纲 的 量 , 它 刻 划分 布 函 数 的 对 称 性 . 当 Cs > 0 时 ,F(x) 
所 表示 的 概率 分 布 偏向 均值 的 右 侧 ， 反 之 则 偏向 左 侧 . 

设 分 布 函数 F(z) 有 中 心 害 jw2 = EB(X 一 B(X))”, pa4 = 忆 (X 一 B(X))”, 则 称 


C4 = a/12—3 (1.79) 


为 峰 度 系数 (kurtosis). 
峰 度 系数 是 一 个 无 量 纲 的 量 ， 它 刻 划 不 同类 型 的 分 布 的 集中 和 分 散 程度 . 
设 随 机 变量 X 有 均值 /4 和 方差 c”, 则 称 


X*= (X—h)/o (1.80) 
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为 标准 化 随机 变量 . 
2. 协 方差 矩阵 
设 X = (Xi1, X2， .mh)， Y= (Gy2， 人 Yn) 为 两 个 随机 变量 则 称 
Cov(X,Y) = (0i;)nxm 


为 XX 与 Y 的 协 方差 阵 (covariance matrix), 其 中 oj = Cov(Xi, YY),i= 1,2,.… 


J 
n, j=1,2,.…,m. 


协 方差 阵 具 有 如 下 性 质 : 

(1) Cov(X,Y) = Cov(Y, X). 

(2) Cov(4X 十 b,Y) = ACov(X,Y), 其 中 4 是 算 阵 ，5 是 向 量 . 
(3) Cov(X +Y,2)= Cov(X,Z)+ Cov(Y, 2). 





设 X = (Xi1,X2,…,Xn) 为 随机 变量 ， 则 称 
Var(X) = Cov(X,X) = (0i;)nxn 


为 X 的 方差 阵 (variance matrix), 也 称 为 方差 - 协 方差 矩阵 (variance-covariance 
matrix), 其 中 0ij 一 Cov (Xi Xj)， 2 = 1, 2, 人 


方差 矩阵 具有 如 下 人 性质 : 
(1) Var(X) 半 正 定 ， 即 Ya € R", 有 


azVar(X)a > 0. 


(2)vVva€ R", 有 
Var(a’ X) = a’ Var(X)a. 


(3)v A € R*x%, 有 
Var(AX) = AVar(X)A’. 


(4) Var(X) = 0 的 充分 必要 条 件 是 ， 3 a € R", c € RR', 使 得 





alX= 人 ce. 


1.4 极限 定理 29 


有 了 协 方差 矩阵 的 概念 ， 7 维 正 态 随机 向 量 的 概率 密度 函数 的 表示 就 变 得 
容易 了 . nn 维 正 态 随机 向 量 X = (Xi, 六 2,…, Xn) 的 概率 密度 函数 为 


1 1 Be 
[Ome TE 0 


其 中 z= (x1, 72， py Wp HH 二 (11, 12, 人 yep) 二 (EB(X1), 五 (X2?)， ny BN) 
二 Var(X) 为 n xn 阶 协 方差 矩阵 且 正 定 . 

二 维 正 态 随机 变量 的 密度 函数 (1.60) 可 以 看 成 n 维 正 态 随 机 向 量 概率 密度 
函数 (1.81) 的 特例 ， 其 中 协 方差 矩阵 为 


| of | 
= 3 | 
PO102 O05 


对 于 nn 维 正 态 随 机 疝 量 (Xi 2,… ,Xn), 有 如 下 的 性 质 : 

(1) Xi, XX2,… ,Xn 相互 独立 与 Xi, 针 2,… ,Xi 两 两 互 不 相关 等 价 ; 

(2) 设 六 ,了 ,… ,Yn 均 是 XX1, 关 2,… ,Xn 的 线性 函数 ， 则 (六, Y,……, Ym) 服 
从 m 维 正 态 分 布 ， 该 性 质 称 为 正 态 分 布 的 线性 变换 不 变性 . 

3. 相关 和 矩阵 

设 关 二 (Xi, 六 2,… ,Xn) 为 随机 变量 ， 则 称 

Cor(X)= (Pij)nxn 

为 X 的 相关 矩阵 (correlation matrix), 其 中 pi; = Cor( Xi Xj), i,7 = 12 7. 

相关 甜 阵 具有 如 下 性 质 : 

(1) Cor(X) 为 对 角 线 元 素 均 为 1 的 半 正 定 对 称 惩 阵 . 

(2) 设 为 二 (Gi jnxn 为 方差 矩阵 ， D= diag (co 0 多， 7 ob)， 则 


Cor(X) = D-!ED-1. 
1.4 极限 定理 
极限 定理 是 概率 论 的 基本 定理 之 一 , 在 概率 论 和 数理 统计 的 理论 研究 和 实际 


应 用 中 都 具有 重要 的 意义 .在 极限 定理 中 ， 最 重要 的 是 : 大 数 定律 和 中 心 极限 定 
理 . 
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1.4.1 大 数 定律 
大 数 定 律 是 判断 随机 变量 的 算术 平均 值 是 否 向 常数 收敛 的 定律 , 是 概率 论 和 
数理 统计 学 的 基本 定律 之 一 . 
定义 1.17 设 Xi, XX2,…,X,… 是 随机 变量 序列 且 忆 (Xi) 存在 (k == 1,2,:….)， 
令 ,二 上 Xi, 车 对 于 任意 给 定 的 。 > 0, 有 
k=1 
lim P{|Y, — E(Y,)| > ce} =0, 
或 
lim P{|Y, — E(Y,)| <e}=1, 
则 称 随机 变量 序列 {Xhk} 服从 大 数 定律 . 
关于 大 数 定律 有 : 
1. Bernoulli 大 数 定律 


设 "4 是 nn 次 独立 重复 试验 中 事件 4 发 生 的 次 数 ，p 是 事件 4 在 每 次 试验 
中 发 生 的 概率 ， 则 对 于 任意 的 正 数 = > 0, 有 


Bernoulli 大 数 定律 揭示 了 “频率 稳定 于 概率 ”说 法 的 实质 . 
2. Chebyshev( 切 比 雪夫 ) 大 数 定律 


设 随 机 变量 Xi，X2，…，Xx，:… 相互 独立 ， 且 具有 相同 的 期 望 与 方差 : 
EB(Xk) = 1, Var( Xx) = o* (k= 1,2,.…-), 则 对 于 任意 的 正 数 。 > 0, 有 





lim P{|Yh,—4| <e}=1. 


3. Khintchin( 辛 钦 ) 大 数 定律 


设 随机 变量 XI!，X2,，…，Xn,，.… 相互 独立 ， 服 从 相同 的 分 布 ， 昌 其 期 望 
E(Xx) 二 从 (k Sy 有 则 对 于 任意 的 正 数 = > 0, 有 


lim P{|Y,—4| <e}=1. 
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若 对 随机 变量 序列 Xi，X2,，……，Xx， ……， 存在 常数 a, 使 得 对 于 任意 的 正 数 
E>0, 有 

lo POO bl 
或 

lim P{|Xn —al > e}=0) 
成 立 ， 则 称 X。 依 概率 收敛 于 a, 记 作 X。 一 > a. 故 上 面 的 Chebyshev 大 数 定律 
与 Khintchin 大 数 定 律 有 


三 二 > a HK. 
Li 
对 于 大 数 定律 ， 有 如 下 定理 . 


定理 1.2 设 随机 变量 X 具有 期 望 (XX) = 1 方差 Var(X) = oa 则 对 于 任意 
E>0, 有 





(oa 
P{IX-H>e} < (1.82) 


称 定理 1.2 中 的 不 等 式 (1.82) 为 Chebyshev 不 等 式 ， 它 是 一 个 重要 的 理论 
工具 ， 应 用 很 广 . 例如 ， 在 有 关 大 数 定律 的 证 明 中 和 常用 到 它 . 
1.4.2 ”中 心 极限 定理 

中 心 极限 定理 是 判断 随机 变量 序列 部 分 和 的 分 布 是 否 渐 近 于 正 态 分 布 的 一 
类 定理 . 在 自然 界 及 生产 、 科 学 实践 中 ,一 些 现 象 受到 许多 相互 独立 的 随机 因素 
的 有 影响， 如 果 每 个 因素 的 影响 都 很 小 ， 那么 总 的 影响 可 以 看 作 是 服从 正 态 分 布 . 
中 心 极限 定理 正 是 从 数学 上 论证 了 这 一 现象 . 
定义 1.18 凡是 在 一 定 条 件 下 ， 断 定 随 机 变量 序列 XX1, 义 2,……, Xi … 的 部 分 和 
Yi 也 Xk 的 极限 分 布 为 正 态 分 布 的 定理 ， 均 称 为 中 ， ee 

有 两 个 最 著名 的 中 心 极 限定 理 . 

1. 独立 同 分 布 的 中 心 极限 定理 

设 随 机 变量 Xi Xo,… ,Xi,*… 相互 独立 ， 服 从 同一 分 布 ， 并 且 具 有 期 望 和 
方差 : E(X:,) 二 /， Var( Xp) 二 0 > 0， k= 1,2, et 则 随机 变量 
> Xk — nn 


Vno 
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的 分 布 函数 五,(z) 收敛 到 标准 正 态 分 布 函 数 ， 即 对 于 任意 实数 x, 有 
lim Fa(7x) = lim P{Yn < 7} = ®(7), 
其 中 a 
| eat 
从 中 心 极限 定理 可 知 ， 当 n 足够 大 时 ， 次 近似 服从 标准 正 态 分 布 N(0, 1)， 
这 在 数理 统计 中 有 非常 重要 的 应 用 . 
2. De Moivre 一 Laplace ( 棣 莫 佛 - 拉 普 ji 中 心 极限 定理 


则 对 于 任意 实数 xz, 有 


(2) = 


2 Xi— np 
lim P 4 = = B(7) 
ee np(1—p) 


X; 服从 二 项 分 布 B(n,p). 从 De Moivre - Laplace 中 心 极限 定理 可 知 ， 


当 n 足够 大 时 ， B(n,p) 近似 于 正 态 分 布 . 它 是 独立 同 分 布 的 中 心 极限 定理 的 特 
殊 情况 . 





1.5 数理 统计 的 基本 概念 


前 几 节 简单 介绍 了 概率 论 的 基本 内 容 , 在 概率 论 中 ,一 般 是 在 随机 变量 分 布 
已 知 的 情况 下 ， 着 重 讨论 随机 变量 的 性 质 . 但 是 对 茶 个 具体 的 随机 变量 来 说 ， 如 
何 判断 它 服 从 某 种 分 布 ? 如果 已 知 它 服从 茶 种 类 型 的 分 布 又 该 如 何 确 定 它 的 各 
个 参数 ? 对 于 这 些 问题 概率 论 都 没有 涉及 到 ， 这 些 都 是 数理 统计 所 要 研究 的 内 
容 ， 并 且 这 些 问题 的 研究 都 直接 或 间接 建立 在 试验 的 基础 上 , 数理 统计 学 是 利用 
概率 论 的 理论 对 所 要 研究 的 随机 现象 进行 多 次 的 观察 或 试验 , 研究 如 何 合理 地 获 
得 数据 ， 如 何 对 所 获得 的 数据 进行 整理 、 分 析 ， 如 何 对 所 关心 的 问题 作出 估计 或 
判断 的 一 门 学 科 ， 其 内容 非常 丰富 . 

下 面 给 出 数理 统计 的 基本 概念 ， 有 关 数 理 统计 的 各 种 方法 和 相应 的 R 软件 
实现 将 在 后 续 的 各 章 中 予以 讨论 . 
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1.5.1 总体、 个 体 、 简 单 随机 样本 


在 数理 统计 中 ， 称 研究 对 象 的 全 体 为 总 体 (population), 通常 用 一 个 随机 变 
量 表示 总 体 ， 组 成 总 体 的 每 个 基本 单元 叫 个 体 (individuals). 

从 总 体 X 中 随机 抽取 一 部 分 个 体 XXX 称 XX1, 关 2,…, Xn 为 取 
自 X 的 容量 为 ”的 样本 (sample). 

例如 ,为 了 研究 某 厂 生产 的 一 批 元 件 质量 的 好 坏 ， 规定 使 用 寿命 低 于 1 干 小 
时 的 为 次 品 ， 则 该 批 元 件 的 全 体 就 为 总 体 ， 每 个 元 件 就 是 个 体 . 实际 上 ， 数 理 统 
计 学 中 的 总 体 是 指 与 总 体 相 联系 的 茶 个 (或 某 几 个 ) 数量 指标 X 取 值 的 全 体 . 比 
如 ， 该 批 元 件 的 使 用 寿命 X 的 取 值 全 体 就 是 研究 对 象 的 总 体 ， 显然 X 是 随机 变 
量 ， 这 时 ， 就 称 X 为 总 体 . 

为 了 判断 该 批 元 件 的 次 品 率 ， 最 精确 的 办 法 是 取出 全 部 元 件 ， 对 作 元 件 的 寿 
命 试验 . 然而 , 寿命 试验 具有 破坏 性 , 即使 菜 些 试验 是 非 破 坏 性 的 , 试验 也 要 要 花 
费 人 力 、 物力 、 时 间 , 因此 只 能 从 总 体 中 抽取 一 部 分 , 比如 说 ”个 个 体 进行 试验 ， 
试验 结果 可 得 组 数值 集合 {zt zz …,zn} 其 中 每 个 x; 是 第 i 次 抽样 观察 的 结 
果 . 由 于 要 根据 这 些 观察 结果 来 对 总 体 进 行 推断 ， 所 以 对 每 次 抽样 就 需要 有 一 定 
的 要 求 , 要 求 每 次 抽取 必须 是 随机 的 、 独立 的 , 这 样 才 能 较 好 地 反映 总 体 情 况 . 所 
谓 随机 的 是 指 每 个 个 体 被 抽 到 的 机 会 是 均等 的 , 这 样 抽 到 的 个 体 才 具 有 代表 性 
若 XX1, XX2,.… ,Xn 相互 独立 ,， 且 每 个 X; 与 同 分 布 ， 则 称 Xi1,X2,.… ,Xn 为 简 
单 随机 样本 (simple random sample), 简称 样本 . 通常 把 ” 称 为 样本 容量 (sample 
size). 

值得 注意 的 是 ， 样 本 具有 两 重 性 ， 即 当 在 一 次 具体 地 抽样 后 它 是 一 组 确定 
的 数值 ,但 在 一 般 叙述 中 样本 也 是 一 组 随机 变量 ， 因 为 抽样 是 随机 的 . 今后 ， 用 
Xi1, 2,.… ,Xn 表示 随机 样本 ， 它 们 取 到 的 值 记 为 zt x2,…, zn, 称 为 样本 观测 
值 (sample value). 

样本 作为 随机 变量 , 有 一 定 的 概率 分 布 , 这 个 概率 分 布 称 为 样本 分 布 . 显然 ， 
样本 分 布 取 决 于 总 体 的 性 质 和 样本 的 性 质 . 

总 体 X 具有 分 布 函 数 F(X), 则 (Xi XX2,…… ,Xn) 的 联合 概率 分 布 函数 为 

















F(X1, Xa Xn) = [| F(xi). 
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寿 具有 概率 密度 函数 f(z), 则 (Xi, Xo,……, Xn) 的 联合 概率 密度 为 


HX Xa Xa) S| [7 
2 一 | 

例 1.5 要 估计 一 物体 的 重量 a, 用 天 平 将 物体 重复 测量 n 次， 结果 记 为 X1, Xo， 
…， Xn, 求 样本 (XX1, XX2，,*… ,Xn) 的 分 布 . 

解 : 假定 各 次 测量 是 相互 独立 ， 即 Xi, X2,.…, Xn 为 一 简单 随机 样本 .再 假 
定 测 量 的 随机 误差 服从 正 态 分 布 ， 天平 没有 系统 误差 , 因此 随机 误差 的 均值 为 0， 
于 是 总 体 的 概率 分 布 可 假定 为 N(a,o”), 其 中 a 为 物体 之 重量 ， o? 反映 天 平 的 
精度 . 故 (Xi X2，…Xn) 的 概率 密度 为 


= 于 1 
2 一 | | .mn2 
f(T1, To ni QI ) EE 人 Ao “op {0 a) } 


a Fo {- 直 | 


i 二 1 





例 1.6 设 某 电 子 元 件 的 寿命 X 从 指数 分 布 


和 ez，7 > 0， 
jz A) = 
0, 2Z < 0， 
今 从 一 批 产 品 中 独立 地 柚 取 TN 件 进 行 寿命 试验 ， 测 得 寿命 数据 为 Xl, 和信 2， A 
求 样本 (Xi1, 从 2， i) Xn) 的 概率 分 布 . 
解 ， 依 题 意 有 为 X1, Xs, a Rn 是 独立 同 分 布 的 ， 且 从; 人 f(z, 入 )， 故 所 求 
概率 密度 为 


Yn | | 
i=1 


| ep { -a oj XT1, 22 07 之 0， 
4 三 工 


0， 其 它 ， 
1.5.2 ”参数 空间 与 分 布 族 


在 例 1.5 中 总 体 分 布 为 Na o), 其 中 4a 与 o” 是 确定 分 布 的 常数 . 例 1.6 中 
总 体 分 布 为 指数 分 布 f(x, 入 ), 入 也 是 确定 分 布 的 常数 .在 数理 统计 中 ， 称 出 现在 
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样本 分 布 中 的 常数 为 参数 (parameter), 因此 ， a, ac” 和 和 都 是 参数 ， 这 些 参数 
是 关于 总 体 的 重要 的 数量 指标 ， 然 而 ， 这 些 参数 往往 是 未 知 的 ， 称 为 未 知人 参数 . 
在 例 1.5 中 ， a 是 未 知 参数 ， 而 o? 是 否 为 未 知 参数 要 看 人 们 对 天 平 精度 的 了 
解 程度 若 对 天 平 精 度 足 够 了 解 可 以 给 出 o? 的 值 ， 则 o? 就 是 已 知 参 数 ， 若 对 
天 平 的 精度 不 够 了 解 ， 无 法 给 出 o? 的 值 ， 其 至 于 抽样 的 目的 就 是 要 估计 推断 这 
个 精度 ， 那 么 ，o? 就 是 未 知 参数 ， 这 时 ， 称 (a, o”) 为 参数 向 量 . 参数 所 有 可 能 
的 取 值 构成 的 集合 称 为 参数 空间 .如 例 1.5 中 (a,o?) 都 是 参数 ， 则 参数 空间 为 
9 =={(a,0) : a > 0,0o?>0}. 例 1.6 的 参数 空间 为 9 = {和 :入 >0}. 

当 样 本 分 布 含 有 未 知 参数 时 ， 不 同 的 参数 值 对 应 于 不 同 的 分 布 , 因此 ， 可 能 
的 样本 不 止 一 个 ， 而 是 一 族 ， 则 称 为 样本 分 布 族 ， 同样 ， 存 在 未 知 参数 时 ， 总 体 
分 布 也 是 一 族 , 构成 总 体 分 布 族 . 例 1.5 中 , 若 c 和 o? 都 是 未 知 参数 ， 则 总 体 分 
布 族 为 {N(a,o°?) : a > 0,0” > 0}, 样本 分 布 族 为 {f(x1, 22,…, Tn;a,07): a> 
0,o? > 0}. 在 例 1.6 中 , 若 入 是 未 知 的 ， 则 总 体 分 布 族 为 {f(z, 入) : 入 > 0}, 样本 
分 布 族 为 {f(z1, za 2ZmA) :入 > 0 











1.5.3 ”统计 量 和 抽样 分 布 


数理 统计 的 任务 是 采集 和 处 理 带 有 随机 影响 的 数据 , 或 者 说 收集 样本 并 对 之 
进行 加 工 ， 以 此 对 所 研究 的 问题 作出 一 定 的 结论 ， 这 一 过 程 称 为 为 统计 推断 , 在 
统计 推 晰 中， 对 样本 进行 加 工整 理 ， 实 际 上 就 是 根据 样本 计算 出 一 些 量 ， 使 得 这 
些 量 能 够 将 所 研究 问题 的 信息 集中 起 来 . 这 种 根据 样本 计算 出 的 量 就 是 下 面 将 要 
定义 的 统计 量 ， 因 此 ， 统 计量 是 样本 的 某 种 函数 ， 
定义 1.19 设 Xi X2，，…，Xn 是 总 体 六 的 一 个 简单 随机 样本 ， T(X1, X2,，….， 
Xn) 为 一 个 n 元 连续 函数 ， 且 了 中 不 含 任何 关于 总 体 的 未 知 参 数 ， 则 称 了 Xi， 
X2，…，Xn) 为 一 个 统计 量 (statistic)， 称 统计 量 的 分 布 为 抽样 分 布 (sampling 


distribution). 





1. 常用 的 统计 量 
(1) 样本 均值 
设 Xi X2,.…, Xn 是 总 体 X 的 一 个 简单 随机 样本 ， 称 


全 3 
和 = 二 》 xX (1.83) 
7 二 
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为 样本 均值 (sample mean). 通常 用 样本 均值 来 估计 总 体 分 布 的 均值 和 对 有 关 总 
体 分 布 均值 的 假设 作 检验 

(2) 样本 方差 

设 Xi1, X2,…, Xn 是 总 体 X 的 一 个 简单 随机 样本 ， XX 为 样本 均值 ， 称 


也 


es (1.84) 


为 样本 方差 (sample variance). 通常 用 样本 方差 来 估计 总 体 分布 的 方差 和 对 有 关 
总 体 分 布 均值 或 方差 的 假设 作 检验 . 

(3) 上 阶 样本 原点 矩 

设 Xi X2,…, Xn 是 总 体 X 的 一 个 简单 随机 样本 ， 称 


= lo xt (1.85) 
人 2 一 工 








样本 的 阶 原点 矩 ， 通常 用 样本 的 阶 原点 窃 来 佑 计 总 体 分 布 的 太 阶 原 点 窍 ， 
() 有 阶 样本 中 心算 
设 Xi Xa，…,Xn 是 总 体 X 的 一 个 简单 随机 样本 ， X 为 样本 均值 ， 称 


nN 


Mi = =》、 (= (1.86) 


2 一 1 
样本 的 大 阶 中 心 矩 ， 通 常用 样本 的 大 阶 中 心 矩 来 估计 总 体 分 布 的 上 阶 中 心 矩 . 
(5) 顺序 统计 量 
设 Xi X2, ……， Xn 是 抽 自 总 体 X 的 样本 ， x1, Zz2，……， xn 为 样本 观测 值 ， 
将 Zi, zz ……， zn 按照 从 小 到 大 的 顺序 排列 为 


20) < X02) 1 < Tn), 


当 样 本 Xi XX2, …, Xn 取 值 为 Zi 22, …, Xn 时， 定义 X(x) 取 值 为 ZO (k = 
1,2,…,n), 称 Xo),， X02 Xn) 为 XX，X2,，…， Xn i (order 
statistic) . 

显然 ，X() = min {Xi} 是 样本 观测 中 取 值 最 小 的 一 个 ， 称 为 最 小 顺序 统计 
量 (smallest order statistic)，X = Max {Xi} 是 样本 观测 中 取 值 最 大 的 一 个 ， 
称 为 最 大 顺序 统计 量 (largest order ea 称 X() 为 第 7 个 顺序 统计 量 . 
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(6) 经 验 分 布 函数 


设 Xi Xs, …, Xh 是 抽 目 总体 X 的 样本 ，X ~ (x), 则 称 
F(z) = 二 K(o) 2 (1.87) 


为 经 验 分 布 函数 (expirical distribution), 其 中 K(x) 表示 六 1, Xo, …, X 中 不 大 
于 z 的 个 数 . 
经 验 分 布 函数 也 可 以 表示 成 





0, 人 所 信 (D)， 
Pr(Z) = 9 &, Xe) ST < Xt), (1.88) 
1, 化 之 X(n) 
(x) 是 一 个 跳跃 函数 , 其 跳跃 点 是 样本 观测 值 . 在 每 个 跳跃 点 处 跳跃 度 均 为 1/n. 


图 1.7 所 示 的 是 n = 10, 抽 目 总 体 入 (0,1) 的 经 验 分 布 函数 和 N(0, 1) 的 总 
体 分 布 函数 图 . 
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图 1.7: 经 验 分 布 和 总 体 分 布 
对 于 经 验 分 布 函数 有 以 下 结果 ( Glivenko ( 格 里 文科 ) 1933 年 证 明 ) 


| lim sup |F(z)— F(z)|= 0 =1. (1.89) 


7 oo 一 co<Z<oco 
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这 个 结果 表明 对 任意 的 实数 x 当 充分 大 时 ， 经 验 分 布 函数 与 总 体 分 布 函数 的 
差异 很 小 ， 因 此 ”充分 大 时 实际 上 可 用 所 (2z) 近似 代替 F(zx). 


2. 常用 的 分 布 和 分 位 数 


(1) x 分布 
设 Xi 2,…, X 是 来 自 总 体 N(0,1) 的 一 个 简单 样本 ， 则 称 统计 量 


Y= 了 二 十.… 十 X2 (1.90) 


为 服从 自由 度 为 n 的 x? 分 布 (chi-square distribution), 记 为 了 ~ x*(n). 图 1.8 


0.4 玉 T 























图 1.8: ”分布 密度 函数 曲线 


给 出 了 n=1、n==4 和 n= 10 的 x 分布 密度 函数 曲线 . 

从 图 1.8 可 以 看 出 ， x 分布 密度 函数 曲线 的 峰值 偏 左 ， 其 偏 度 系数 C。 为 
正 . 当 ? 越 小 时 ， 密 度 曲 线 越 陡 峭 ， 其 峰 度 系数 Ci 就 越 大 ; 当 n 越 大 时 ， 曲 线 
越 平 坦 ， 其 峰 度 系数 C4 就 越 小 . 

车 对 于 给 定 的 a, 0 < a < 1 存在 xz(n) 使 


Pl SN 


则 称 点 Xa(p) 为 x 分 布 的 上 a 分 位 点 图 1.9 所 示 的 是 n=5,a=0.1 的 x 
分 布 的 上 a 分 位 点 xa(n). 
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图 1.9: x2 分 布 的 上 a 分 位 点 


x 分 布 具 有 如 下 性 质 . 

人 可 加 性 . 设 页 ~ 和 (om 和 ~ (nm), 且 两 者 相互 独立 ， 则 页 十 殉 ~ 
X2(7mmz 十 人) 

Qi 期 望 值 与 方差 . 若 了 ~ xm) 则 EE(Y) =m Var(Y) = 2m. 

(2) t 分 布 

设 半 ~ 和 N(0,1), ~x(n), 且 X,Y 相互 独立 ， 则 称 随 机 变量 

及 
VY/n 

为 服从 自由 度 为 nn 的 t 分 布 (t-distribution), 记 为 T~t(n). 

图 1.10 给 出 了 n=1、n==2、n==5 和 n= oo 的 t 分 布 密 度 函数 曲线 . 

从 图 1.10 可 以 看 出 ， 分布 是 对 称 分 布 ， 其 偏 度 系 数 Cs 为 0. n 越 小 ， 其 
峰 度 系数 Ci 越 大 ， mn 越 大 ， 其 峰 度 系数 Ci 越 小 . 

奇 对 于 给 定 的 a, 0 < a < 1, 称 满足 





厂 一 





(1.91) 


P{T > ta(n)} = a, 


的 点 ta(n) 为 上 分 布 的 上 a 分 位 点 图 1.11 所 示 的 是 n= 5, a = 0.1 的 t+ 分布 
的 上 a 分 位 点 ta(n). 
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图 1.11: t 分布 的 上 a 分 位 点 


由 于 分 布 的 概率 密度 函数 f(t) 是 偶 函 数 ， 即 f(t) = f(--t), 关于 t==0 对 
称 ， 因 此 对 一 切 mw 有 EE(T) = 0. 并 且 


| f(t)dt=1—a, 
—tn(a) 


所 以 ti_a(n) —ta(n). 
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(3) 五 分 布 
设 针 和 ~ 训 (n),Y~~X(m), 且 XX 和 YY 相互 独立 ， 则 称 随 机 变量 
_X/n 
= (1.92) 


为 服从 自由 度 为 (n,m) 的 下 分 布 (F-distribution), 称 n 为 第 一 自由 度 ，m 为 第 
二 自由 度 ,， 记 为 了 ~ 了 了 (n,m). 

图 1.12 所 示 的 是 n= 5,m = 20,n=7,m= 20,n= 20,m= 20,n = 20, 
m 二 2 和 n= 20, m= 二 7 的 了 分 布 密度 函数 曲线 . 























图 1.12: 分 布 密度 函数 曲线 


者 对 于 给 定 的 a, 0 < a < 1, 称 满足 
P{F > Fn,m)}= a, 


的 点 Fa(n,m) 为 了 分 布 的 上 a 分 位 点 . 
图 1.13 所 示 的 是 n= 5, m= 8, Qa 二 0.1F 分 布 的 上 a 分 位 点 fo(n,m). 
分 布 具 有 如 下 性 质 : 
(i) X ~ Fn,m), NI/X ~ Fm,n); 
(i) Fi_a(n, m) = ee 


全 设 X~tm, 则 X2 ~ FF(1,n). 
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图 1.13: 五 分布 的 上 a 分 位 点 


1.5.4” 正 态 总 体 样本 均值 与 样本 方差 的 分 布 


设 X1, XX2,…, Xn 是 来 自 于 正 态 总 体 N(1,o”) 的 样本 ， 又 ,932 分 别 为 样本 
均值 和 样本 方差 ， 则 有 
X—h 








FE OLD (1.93) 
Ee a ey (1.94) 

Xp pn 

5 万 t( 1), (1.95) 


且 革 与 52 相互 独立 . 
设 Xi1， 入 2， “0 Xn 与 i， Y2， 9 于 分 别 是 来 自 于 正 态 总 体 (LT 07), 
N(12, 2) 的 样本 ， 且 这 两 样本 相互 独立 ， 则 有 


多 2 
菇 一 N (nm-pe +t 时) (1.96) 
nN Ns 
或 
a Te 
td i N(0,1). (1.97) 
2 2 
< 于 2 
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若 of==03=o02, 且 oo? 未知， 则 





Ce ~ (ml +7 = 2), (1.98) 


/1 1 
3 pr 


(m1 — D5r+ (m2 — 1)52 (1.99) 
ni 十 n2 一 2 


和 ,了 分别 是 两 样本 的 均值 ， 5?, 53 分 别 是 两 样本 的 方差 . 


9 下 


习题 一 


1.1 设 有 人 m 个 人 ， 每 个 人 都 以 相同 的 概 六 二 被 分 入 N 个 室 (N mm) 中 任意 
一 个 室 中 去 住 ， 且 每 室 中 人 数 不 限 ， 并 允许 有 空 室 ， 求 : 

(1) 某 指定 的 m 个 室 中 每 室 各 分 入 了 人 的 概率 

(2) 恰 有 m 个 室 ， 其 中 每 室 各 分 入 1 人 的 概率 ; 

(2 车 N=10,7m 二 6, 求 恰 有 两 人 分 入 同一 室 ( 即 恰 有 一 室 ， 其 中 恰 分 入 了 
两 个 人 ) 的 概率 . 
1.2 甲 、 乙 两 轮 驶 向 一 个 不 能 同时 停泊 两 轮 的 码头 ， 它 们 在 一 各 夜 内 到 达 的 时 
刻 是 等 可 能 的 . 设 甲 轮 的 停泊 时 间 是 7 了 小时， 乙 轮 的 停泊 时 间 是 2 小 时 ， 求 二 
轮 都 不 需 等 待 码头 空 出 的 概率 . 
1.3 一 批 产品 共有 20 件 ， 其 中 有 汪 件 次 品 ， 其 余 为 正品 . 现 依次 进行 不 放 回 机 
取 三 次 ， 求 : 

(1) 第 三 次 才 取 到 次 品 的 概率 ; 

(2) 在 第 一 、 第 二 次 取 到 正品 的 条 件 下 ， 第 三 次 取 到 次 品 的 概率 ; 

(3) 第 三 次 取 到 次 品 的 概率 . 
1.4 有 朋 自 远方 来 ， 他 乘 火 车 、 轮 船 、 汽 车 、 飞 机 来 的 概率 分 别 为 0.3, 0.2, 0.1， 
0.4. 如 果 他 乘 火车 、 轮 船 、 汽 车 、 飞 机 来 的 话 , 迟到 的 概率 分 别 为 1/4, 1/3, 1/12， 
而 乘 飞 机 则 不 会 迟到 ， 现 朋 友 迟 到 了 ， 问 他 是 乘 火车 来 的 概率 是 多 少 ? 
1.5 设 每 人 血清 中 含有 肝炎 病毒 的 概率 为 0.004, 随机 混合 100 人 的 血清 ， 求 此 
血清 中 仿 有 肝炎 病毒 的 概率 . 
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1.6 甲 、 忆 、 丙 三 门 高 射 炮 彼此 独立 地 向 同一 架 飞 机 射击 ,， 设 甲 、 乙 、 丙 炮 射 中 
飞机 的 概率 分 别 为 0.7, 0.8, 0.9. 

(1) 求 飞机 被 射 中 的 概率 ; 

[2) 又 设 车 只 有 一 门 炮 射 中 飞机 坠毁 的 概率 为 0.7, 车 有 两 门 炮 射 中 飞机 附 
毁 的 概率 为 0.9, 车 三 门 炮 都 射 中 ， 飞 机 必 荃 毁 ， 求 飞机 坠毁 的 概率 ， 
1.7 一 个 靶子 是 半径 为 2 米 的 圆 瘟 ， 设 击 中 靶 上 任 一 同心 圆 瘟 上 的 点 的 概率 与 
该 圆 意 的 面积 成 正比 ， 并 设 射击 都 能 中 和 靶 ， 以 外 表示 弹 着 点 与 圆心 的 距离 ， 试 
求 随机 变量 X 的 分 布 函 数 ， 
1.8 某 单 位 招聘 2500 人 ， 按 考试 成 绩 从 高 分 到 低 分 依次 录用 ， 共 有 10000 人 报 
名 ， 假 设 报 名 者 的 成 绩 X ~ N(1,07), 已 知 90 分 以 上 有 359 人 ， 60 分 以 下 有 
1151 人 ， 问 被 录用 者 中 最 低 分 为 多 少 ? 
1.9 现 有 90 台 同 类 型 的 设备 ， 各 台 设 备 的 工作 是 相互 独立 的 ， 发 生 故 障 的 概率 
是 0.01, 且 一 台 设 备 的 故障 能 由 一 人 处 理 ， 配 备 维修 工人 的 方法 有 两 种 ， 一 种 是 
3 人 分 开 维护 ， 每 人 负责 30 台 ， 另 一 种 是 由 3 人 共同 维护 90 台 ， 试 比较 两 种 
方法 在 设备 发 生 故 障 时 不 能 及 时 维修 的 概率 的 大 小 
1.10 设 二 维 随 机 向 量 (X,Y) 的 分 布 函数 为 : 





1—2-7— 2 V4+2-7Y zx>0,v>0, 
开罗 到 二 

0， 其 它 ， 
求 P{l<X<2,3<Y<5}. 
1.11 一 个 党 中 装 有 5 只 球 ， 其 中 4 只 红 球 ， 1 只 和 白 球 . 每 次 从 中 随机 地 柚 取 
一 只 ， 取 后 不 放 回 ， 连 续 机 取 两 次 ， 令 
1， 著 第 二 次 抽 到 红 球 ， 
0， 著 第 二 次 机 到 和 白 球 ， 


1， 著 第 一 次 抽 到 红 球 ， 
着 = ‘Ye 
0， 若 第 一 次 抽 到 和 白 球 ， 


试 求 ， 
(1) (X,Y) 的 联合 分 布 律 
[2)P{X > Y}. 
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1.12 设 二 维 随 机 变量 (X,Y) 的 联合 概率 密度 函数 为 : 


Ae“(21%) 7 > 0 > 0， 
f(x,y) = . 
0， 其 它 . 
求 : 
(1) 常数 A; 
(2) P{—-1<X<1,-—1<Y<1}; 
(8) P{X FY < 1}; 
(4) (X,Y) 的 联合 分 布 函数 F(z,Yy). 

1.13 飞机 场 送 客 汽车 载 有 20 位 乘客 ， 离 开机 场 后 共有 10 个 车 站 可 以 下 车 ， 
若菜 个 车 站 无 人 下 车 该 车 站 则 不 停车 . 设 乘客 在 每 个 车 站 下 车 的 可 能 性 相等 且 他 
们 的 行动 相互 独立 ， 以 X 表示 停车 的 次 数 ， 求 B(X). 

1.14 某 保 险 公 司 制 定 赔 偿 方 案 ， 如 果 在 一 年 内 一 个 顾客 的 投保 事件 4 发 生 ， 
该 公司 就 赔偿 该 顾客 a 元 ， 若 已 知 一 年 内 事件 A 发 生 的 概率 为 p, 为 使 公司 收益 
的 期 望 值 等 于 a 的 5%, 该 公司 应 该 要 求 顾客 交纳 多 少 元 的 保险 费 ? 

1.15 设 在 总 体 N(1,0?) 中 抽取 一 容量 为 n 的 样本 ， 这 里 /4,0? 均 为 未 知 ， 当 
n 二 16 时 , 求 P{52/o? < 2.04}. 

1.16 设 从 1) 及 2， 人 ;Xn 和 1, Y2， ek 了 mr 有 是 分 别 来 自 于 正 态 总 体 入 人 VCL， 02) 
和 ~ Nuao2),， 且 相互 独立 ， 则 以 下 统计 量 服从 什么 分 布 ? 


(n — 1)(S? + 52) | 
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第 二 章 ”RR 软件 的 使 用 


在 第 一 章 ， 介 绍 了 概率 统计 的 基本 概念 ， 从 本 章 开 始 介绍 如 何 用 R 软件 求 
解 统计 问题 .在 介绍 各 种 方法 之 前 ， 先 对 R 软件 作 一 个 基本 的 介绍 . 


2.1 R 软件 简介 


R 是 一 个 开放 的 统计 编程 环境 ， 是 一 种 语言 ， 是 S 语言 的 一 种 实现 . 8 语 
言 是 由 AT&T Bell 实验 室 的 Rick Becker, John Chambers 和 Allan Wilks 开发 
的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 语言 . 最 初 S 语言 的 实现 版 
本 主要 是 S-PLUS. S-PLUS 是 一 个 商业 软件 ， 它 基于 S 语言 ， 并 由 MathSoft 公 
司 的 统计 科学 部 进一步 完善 。 R 是 一 种 软件 ， 是 一 套 完 整 的 数据 处 理 、 计 算 和 
制图 软件 系统 ， 其 功能 包括 ， 数据 存储 和 人 处 理 系 统 ， 数 组 运算 工具 ， 完 整 连贯 也 
统计 分 析 工 具 ， 优 秀 的 统计 制图 功能 . 简便 而 强大 的 编程 语言 ， 可 操纵 数据 的 输 
入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 自 定义 功能 . 

Auckland (奥克兰 ) 大 学 的 Robert Gentleman 和 Ross Ihaka 及 其 他 志愿 人 
员 开 发 了 一 个 R 系统 ， 目 前 由 R 核心 开发 小 组 维护 ， 他 们 完全 上 自愿、 工作 努力 
人 负责， 并 将 全 球 优秀 的 统计 应 用 软件 打包 提供 给 我 们 . 我 们 可 以 通过 R 软件 的 
网 站 (http://www.r-project.org) 了 解 有 关 R 的 最 新 信息 和 使 用 说 明 ， 得 到 最 新 
版 本 的 R 软件 和 基于 R 的 应 用 统计 软件 包 . 

R 是 完全 免费 的 ， 而 S-PLUS 尽管 是 非常 优秀 的 统计 分 析 软 件 ， 但 是 需要 付 
费 的 ， 及 可 以 在 UNIX 、Windows 和 Macintosh 的 操作 系统 上 运行 ， 它 栓 入 了 
一 个 非常 实用 的 帮助 系统 ， 并 具有 很 强 的 作 图 能 力 . R 的 使 用 与 S-PLUS 有 很 
多 类 似 之 处 ， 两 个 软件 有 一 定 的 兼容 性 . S-PLUs 的 使 用 手册 ， 只 要 经 过 不 多 的 
修改 就 能 成 为 R 的 使 用 手册 . 

与 其 说 R 软件 是 一 种 统计 软件 ， 还 不 如 说 R 是 一 种 数学 计算 环境 . 因为 及 
提供 了 有 弹性 的 、 互 劲 的 环境 来 分 析 、 可 视 及 展示 数据 ; 它 提供 了 若干 统计 程序 
包 ， 以 及 一 些 集成 的 统计 工具 和 各 种 数学 计算 、 统 计 计 算 的 函数 ， 用 户 只 需 根据 
统计 模型 指定 相 应 的 数据 库 及 相关 的 参数 , 便 可 灵活 机 动 的 进行 数据 分 析 等 工 
作 ， 甚 至 创造 出 符合 需要 的 新 的 统计 计算 方法 . 使 用 R 软件 可 以 简化 你 的 数据 
分 析 过 程 ， 从 数据 的 存 取 ， 到 计算 结果 的 分 享 ， 及 软件 提供 了 更 加 方便 的 计算 
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工具 ， 帮 助 你 更 好 地 决策 . 通过 R 软件 的 许多 内 赂 统计 函数 ， 用 户 可 以 很 容易 
学 习 和 掌握 R 软件 的 语法 ， 也 可 以 编制 自己 的 函数 来 扩展 现 有 的 R 语言 ， 完 成 
你 的 科研 工作 . 


2.1.1 R 软件 的 下 载 与 安装 
R 软件 是 全 免费 的 ， 在 网 站 : 


http://cran.r-project.org/bin/windows/base/ 
可 下 载 到 R 软件 的 Windows 版 ， 当 前 的 版 本 是 R-2.3.1 版 (2006 年 6 月 1 日 
发 布 ), 大 约 是 27 兆 ， 点 击 R-2.3.1-win32 下 载 ， 或 者 选择 距离 你 最 近 的 镜像 
(mirror near you) 下 载 . 注意 ,在 R-2.2.0 版 本 以 前 是 点 击 rwXXXX. exe 下载, 其 
中 XXXX 是 版 的 序号 ， 如 本 书 使 用 的 版 本 是 R-2.1.1, 则 点 击 rw2011 .exe 下 载 . 

R 软件 可 以 在 Windows 95, 98, ME, NT4, 2000, XP 和 2003 上 运行 ， 最 好 
选择 Windows 98 以 上 的 操作 系统 . 

R 软件 安装 非常 容易 , 运行 你 刚才 下 载 的 程序 , 如 R-2.3.1-win32.exe (R for 
Windows Setup), 按照 Windows 的 提示 安装 即 可 . 当 你 开始 安装 后 , 选择 安装 提示 
的 语言 (中 文 或 英文 ), 接受 安装 协议 ,选择 安装 目录 ( 缺 省 值 C:\Program Files 
\R\R-2.3.1), 并 选择 安装 组 件 .在 安装 组 件 中 ， 最 好 将 PDF Reference Manual 
项 也 选 上 ， 这 样 在 R 软件 的 帮助 文件 中 有 较为 详细 的 PDF 格式 的 软件 说 明 . 

注意 , 在 R-2.2.0 以 前 的 版 本 , 在 安装 组 件 中 , 一 定 要 选择 东亚 语言 版 (Version 
for East Asian languages), 否则 在 中 文 Windows 操作 系统 下 的 R 窗口 会 出 现 乱 
码 . 

按照 Windows 的 各 种 提示 操作 ， 你 稍 候 片 刻 ， R 软件 就 安 闭 成 功 了 . 

安装 完成 后 , 程序 会 创建 R 程序 组 并 在 桌面 上 创建 R 主 程序 的 快捷 方式 (也 
可 以 在 安装 过 程 中 选择 不 要 创建 ). 通过 快捷 方式 运行 R, 便 可 调 出 R 的 主 窗口 ， 
如 图 2.1 所 示 . 

R 软件 的 界面 与 Windows 的 其 他 编程 软件 相 类 似 ， 是 由 一 些 菜 单 和 快捷 按 
钮 组 成 . 快捷 按钮 下 面 的 窗口 便 是 命令 输入 窗口 ， 它 也 是 部 分 运算 结果 的 输出 窗 
口 ， 有 些 运算 结果 (如 图 形 ) 则 会 在 新 建 的 窗口 中 输出 . 

主 窗 口上 方 的 一 些 文字 (如 果 是 中 文 操作 系统 ， 则 显示 中 文 ) 是 刚 运行 R 时 
出 现 的 一 些 说 明和 指引 . 文字 下 的 > 符号 便 是 R 的 命令 提示 符 (矩形 光标 ), 在 其 
后 可 输出 命令 R 一 般 采 用 交互 式 工作 方式 ， 在 命令 提示 符 后 输入 命令 ， 回 车 
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RGui 





文件 编辑 其 地 程序 包 窗口 帮助 


所 | 四 [| 


R Console 





R : Copyright 2006, The R Foundation for Statistical Computing 
Version 2.3.1 12006-06-01) 
ISBN 3-900051-07-0 
R 是 免费 软件 软件 ， 不 承 任 何 担保 。 
在 某 些 条 件 下 你 可 以 将 其 自由 散布 。 
用 ， license{})'! 成 ' licencet{})'! 来 看 散布 的 详 甸 条 忻 。 
R 是 个 合作 计划 ， 有 许多 作为 之 居 出 了 页 献 . 
用 ， contributorsit)' 看 i 的 情况 
用 ,citationf) ' 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 或 R 程 序 包 。 
用 'demo1) ' 来 看 一 些 示 范 程 序 ， 用 'help1) 来 阅读 在 线 帮 助 文 件 ， 或 
pee ' 通 过 HTML 浏 览 器 来 看 帮助 文件 。 
‘qi R. 


-上 


图 2.1: R 软件 主 和 窗口 


后 便 会 输出 计算 结果 . 当然 也 可 将 所 有 的 命令 建立 成 一 个 文件 ,运行 这 个 文件 的 
全 部 或 部 分 来 执行 相应 的 命令 ， 从 而 得 到 相应 的 结果 . 这 种 计算 方式 更 加 简便 ， 
具体 计算 过 程 ， 将 在 后 面 进行 讨论 . 


2.1.2 初 识 R 


用 三 个 简单 的 例子 ， 认 识 一 下 R 软件 . 
例 2.1 某 学 校 在 体检 时 测 得 12 名 女 中 学 生体 重 X1 (千克 ) 和 胸围 X( 厘 米 ) 次 
料 如 表 2.1 所 示 ， 试 计算 体重 与 胸围 的 均值 与 标准 差 . 

解 直接 在 主 窗口 输入 命令 ， 

> # 输入 体重 数据 

> X1 <- c(35，40，40，42，37，45，43，37，44，42，41，39) 

> mean(X1) “ # 计算 体重 的 均值 

[1] 40.41667 

> sd(X1) # 计算 体重 的 标准 差 

[1] 3.028901 
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表 2.1: 学 生体 检 资 料 


学 生 编号 | 体重 XI 胸围 X 体重 XX! 胸围 X， 


1 43 78 
2 37 66 
3 44 70 
4 42 65 
5 41 73 
6 39 75 





> # 输入 胸围 数据 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 
> mean(X2)  # 计算 胸围 的 均值 

[1] 69.66667 

> sd(X2) # 计算 胸围 的 标准 差 

[1] 5.210712 


从 上 述 计 算 过 程 来 看 ， R 软件 计算 这 些 统计 量 非常 简单 . 我 们 来 逐 句 作 一 
下 解释 . 

“#” 号 是 说 明 语句 字符 ， # 后 面 的 语句 是 说 明 语 句 ， 大 家 学 习 运 用 说 明 语 
句 ， 来 说 明 程 序 要 作 的 工作 ， 增 加 程序 的 可 读 性 . 

<- 表示 赋值 ， c( ) 表示 数组 ，X1<-c( ) 即 表 示 将 一 组 数据 赋 给 变量 X1. 

mean( ) 是 求 均值 函数 ， mean(X1) 表示 计算 数组 X1 的 均值 . 

[1] 40.41667 是 计算 结果 ,这 里 的 [1] 表示 第 1 行 ，40.41667 是 计算 出 的 
均值 ， 即 这 12 名 女生 的 平均 体重 是 40.42 千克 . 

sd( ) 是 求 标准 差 函数 ， sd(X1) 表示 计算 数组 X1 的 标准 差 . 

上 述 过 程 中 的 > 号 ， 均 是 计算 机 提示 符 ， 

当 你 退出 R 系统 时 ， 计 算 机 会 询问 你 是 否 保 存 工作 空间 映 象 ， 你 可 选择 保 
存 (是 (Y)) 或 不 保存 ( 否 (N)). 
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如 果 想 将 上 述 命令 保存 在 文件 中 , 希望 以 后 调用 ， 可 以 先 将 所 有 的 命令 放 在 
一 个 文件 中 . 用 鼠标 点 击 “ 文 件 ” 窗口 下 的 “建立 新 的 程序 脚本 ”, 则 屏幕 会 弹出 
一 个 及 编辑 (R Editor) 窗口 ， 在 窗口 中 输入 相应 的 命令 即 可 .然后 将 文件 保存 
起 来 ， 如 文件 名 : ”exam0201.R. 
例 2.2 绘 出 例 2.1 中 12 名 学 生体 重 与 胸围 的 散 点 图 和 体重 的 直方 图 . 

解 : 在 主 和 窗口 下 输入 

> Xx1<-c(35, 40, 40, 42, 37, 45, 43, 37, 44, 42, 41, 39) 

> X2 <- c(60, 74, 64, 71, 72, 68, 78, 66, 70, 65, 73, 75) 

> plot (X1, X2) 


则 R 软件 会 打开 一 个 新 的 窗口 ， 新 窗口 绘 出 体重 与 胸围 的 散 点 图 ， 如 图 2.2 所 
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图 2.2: 12 名 学 生体 重 与 胸围 的 散 点 图 


再 键入 
> hist(X1) 
则 屏幕 会 弹出 另 一 个 新 窗口 ， 新 窗口 绘 有 体重 的 直方 图 ， 如 图 2.3 所 示 . 
例 2.3 设 有 文本 文件 exam0203.txt, 其 内 容 与 格式 如 下 : 
Name Sex Age Height Weight 
Alice F 13 56.5 84.0 
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Frequency 
1.0 1.5 2.0 2.5 3.0 


0.5 


0.0 


Becka 
Gail 
Karen 
Kathy 
Mary 
Sandy 
Sharon 
Tammy 
Alfred 
Duke 
Guido 
James 
Jeffrey 
John 
Philip 
Robert 
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Histogram of X1 
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图 2.3: 12 名 学 生体 重 的 直方 图 





65.3 98.0 
64.3 90.0 
56.3 77.0 
59.8 84.5 
66.5 112.0 
51.3 50.5 
62.5 112.5 
62.8 102.5 
69.0 112.5 
63.5 102.5 
67.0 133.0 
57.3 83.0 
62.5 84.0 
59 .0 99 .5 
72.0 150.0 
64.8 128.0 
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Thomas M 11 57.5 85.0 

William M 15 66.5 112.0 
其 中 第 一 行 相当 于 表 头 ， 有 是 说 明 变 量 属 性 的 ， 即 说 明 各 列 的 内 容 ， 如 第 一 列 是 姓 
名 ,第 二 列 是 性 别 ， 第 三 列 是 年 龄 ， 第 四 列 是 身高 (厘米 ), 第 五 列 是 体重 ( 磅 ). 从 
第 二 行 至 最 后 一 行 是 变量 的 内 容 . 试 从 该 文件 中 读 出 数据 ， 并 对 身高 和 体重 作 回 
归 分 析 . 

解 : (1) 建立 R 文件 (文件 名 : exam0203.B). 点 击 “ 文 件 | 建立 新 的 程序 脚 
本 ”, R 窗口 会 弹出 R 编辑 对 话 窗口 (R Editor), 在 窗口 中 输入 需要 编辑 的 程序 
(命令 ). 

rt<-read.table("exam0203.txt", head=TRUE); rt 
lm.sol<-lm(Weight Height, data=rt) 
summary (lm.so1) 

下 面 解释 一 下 每 一 个 命令 的 意义 . 文件 的 第 一 行 是 读 文 件 exam0203.txt, 并 
认为 文本 文件 exam0203.txt 中 的 第 一 行 是 文件 的 头 (head=TRUE); 否则 (FALSE) 
文件 中 的 第 一 行 作 为 数据 人 处理 .并 将 读 出 的 内 容 放 在 变量 rt 中 . 第 二 个 rt 是 
显示 变量 的 内 容 (如 果 一 行 执行 多 个 命令 ， 需 用 分 号 (;) 隔 开 ). 

第 二 行 是 对 数据 rt 中 的 重量 (Weight) 与 高 度 (Height) 作 线 性 回归 ， 其 计 
算 结 果 放 置 变 量 lm.sol 中 . 

第 三 行 是 显示 变量 lm.sol 中 的 详细 内 容 ， 它 将 给 出 了 回归 的 模型 公式 、 残 
差 的 最 小 最 大 值 等 ， 和 线性 回归 系数 ， 以 及 估计 与 检验 等 . 有 关 具 体 含义 将 在 后 
面 作 详 细 介 绍 . 

(2) 执行 文件 exam0203.R 的 内 容 . 执行 文件 中 的 内 容 有 几 种 方式 ,第 一 种 ， 
在 R 编辑 窗口 中 用 鼠标 选中 要 执行 的 程序 (命令 )， 然 后 再 单 击 “执行 行 或 选择 
项 `, 如 图 2.4 所 示 . 第 二 种 方法 是 单 击 “ 编 辑 | 执行 一 切 … 第 三 种 方法 是 采取 
复制 、 粘 贴 的 方法 将 命令 粘贴 到 主 窗口 ， 执 行 相 应 的 命令 ， 

执行 后 得 到 

> rt<-read.table('"exam0203.txt", head=TRUE); rt 

















Name Sex Age Height Weight 
1 Alice 了 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 Gail 了 14 64.3 90.0 
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RGui 





文件 编辑 程序 包 窗口 帮助 
Ce 加 


执行 行 或 选择 项 








图 2.4: 执行 R 编辑 窗口 中 的 命令 


4 Karen 了 12 56.3 77.0 
5 Kathy F 12 59.8 84.5 
6 Mary F 15 66.5 112.0 
7 Sandy FF 11 51.3 50.5 
8 Sharon F 15 62.5 112.5 
9 Tammy F 14 62.8 102.5 
10 Alfred M 14 69.0 112.5 
11 Duke M 14 63.5 102.5 
12 Guido M 1i5 67.0 133.0 
13 James M 12 57.3 83.0 
14 Jeffrey M 13 62.5 84.0 
15 John M 12 59.0 99.5 
16 Philip M 16 72.0 150.0 
17 Robert M 12 64.8 128.0 
18 Thomas M 11 57.5 85.0 


19 William M 15 66.5 112.0 
> lm.sol<-lm(Weight “Height, data=rt) 


> summary (lm.sol1) 


Call: 
lm(formula = Weight ~ Height, data = rt) 


2.1 R 软件 简介 55 


Residuals: 
Min 1Q Median 3Q Max 
-17.6807 -6.0642 0.5115 9.2846 18.3698 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -143.0269 32.2746 -4.432 0.000366 *** 
Height 3.8990 0.5161 7.555 7.89e-07 +*** 


Signif. codes: 0 ’?***’ O.001 ?**’ 0.01 ?#” 0.05 ”.”0.1 ”?”1 


Residual standard error: 11.23 on 17 degrees of freedom 
Multiple R-Squared: 0.7705, Adjusted R-squared: 0.757 
F-statistic: 57.08 on 1 and 17 DF, p-value: 7.887e-07 
在 执行 中 , 主 窗 口 会 重复 显示 编辑 窗口 的 命令 , 如 主 窗口 显 示 的 第 一 行 与 纺 
辑 徐 口 的 第 一 行 完全 相同 . 第 二 行 以 下 的 内 容 是 显示 变量 rt, 也 就 是 文本 文件 
exam0203.txt 中 的 内 容 ， 注 意 到 ， 显 示 内 容 比 原 内 容 增 加 了 一 列 ， 即 标号 列 . 
在 summary(lm.sol) 后 面 显 示 的 是 线性 回归 模型 具体 计算 的 结果 . 
从 上 面 三 个 列子 可 以 看 出 ， 利 用 R 软件 计算 各 种 统计 量 十 分 方便 ， 可 以 作 
图 ， 也 可 以 从 文件 中 读数 据 等 .掌握 这 些 基 本 知识 ， 就 可 以 用 R 软件 来 为 我 们 
服务 . 
为 今后 使 用 方便 ， 先 介绍 窗口 中 的 菜单 、 快 捷 方 式 的 意义 . 

















2.1.3 ”RR 主 窗口 命令 与 快捷 方式 
主 窗 口中 的 快捷 方式 如 图 2.5 所 示 ， 相 关 含义 在 主 窗口 命令 中 解释 
1. 文件 
主 窗口 中 的 “文件 ' 窗口 如 图 2.6 所 示 . 
(1) 输入 及 代码 .. 


执行 要 输入 的 程序 . 单 击 “输入 RB 代码 . . .”, 打开 “选择 要 输入 的 程序 文件 ” 
窗口 ， 选 择 要 输入 的 程序 文件 (后缀 为 .R), 如 MyFile.R. 选择 好 要 输入 的 文件 ， 
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保存 映像 中 断 目前 的 计算 
打开 程序 脚本 粘贴 


| 


载 信 映像 复制 和 粘贴 | 
复制 打印 





图 2.5: 主 窗口 中 的 快捷 方式 及 意义 











编辑 其 地 程序 包 窗口 帮助 
输入 BR 代码. 














建立 新 的 程序 脚本 
打开 程序 脚本 . . 
显示 文件 . 
载 人 工作 空间 . 5 The R Foundation for Statistical Computing 
保存 工作 空间 ... 005-06-20), ISBN 3-900051-07-0 
载 入 历史 ... 
人 
改变 当前 目录 ... icencel)! 归于 散布 的 详细 条 件 。 
打印 .. . 人 
保存 到 六 件 ... ' 来 看 详细 的 情况 
ET 尖 训 如 但 让 出 最 物 中 正确 地 引用 R 或 R 程 序 包 。 


图 2.6: 主 窗口 中 的 文件 菜单 





按 “打开 (0)”. R 软件 会 执行 该 文件 (MyFile.B), 但 在 主 窗口 并 不 显示 所 执行 的 
内 容 (如 有 绘图 命令 ， 则 在 另 一 窗口 显示 出 所 绘图 形 ), 而 只 在 主 窗口 显示 

> source("MyFile.R") 
当然 ， 在 主 窗 口 执行 source("MyFile.R") 命令 , 具有 同样 的 功能 

(2) 建立 新 的 程序 脚本 

建立 一 个 新 程序 脚本 . 单 击 “ 建 立新 的 程序 脚本 ”, 打开 一 个 新 的 R 程序 编 
辑 窗 口 ， 输 入 你 要 编写 的 R 程序 . 输入 完毕 后 ， 选 择 保存 ， 并 给 一 个 文件 名 ， 如 
MyFile.R. 

(3) 打开 程序 脚本 ... 

打开 已 有 的 程序 脚本 . 单 击 “ 打 开 程序 脚本 . . .”, 打开 “open script” 窗 
口 ， 选 择 一 个 R 程序， 如 MyFile.R, 屏幕 弹出 MyFile.R 编辑 窗口 ， 可 以 利用 这 
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个 窗口 对 R 程序 (MyFile.R) 进行 编辑 ， 或 执行 该 程序 中 的 部 分 或 全 部 命令 . 

(4) 显示 文件 ... 

显示 已 有 的 文件 . 单 击 “显示 文件 . . .” 打开 “select files” 和 窗口， 选择 
一 个 文件 (*.R 或 *.q), 如 MyFile.R. 屏幕 弹出 MyFile.R 窗口 , 可 利用 该 窗口 执 
行 该 程序 (MyFile.R) 的 部 分 或 全 部 命令 ， 但 无 法 用 该 窗口 对 该 程序 进行 编辑 . 

(5) 载 入 工作 空间 . . . 

调 入 已 保存 的 工作 空间 映像 文件 . 单 击 “ 载 入 工作 至 间 .. . ,打开 “选择 要 载 
入 的 映像 ” 窗口 ,在 文件 名 窗口 输入 要 载 入 的 文件 名 , 如 MyWorkSpace, 文件 类 型 是 
* .RData. 当 调 用 成 功 后 ， 保 存在 工作 空间 映像 MyWorkSpace.RData 中 的 全 部 命 
令 就 被 调 到 内 存 中 ， 这 样 在 本 次 运算 时 ， 就 不 必 重 复工 作 空 间 MyWorKkSpace .RData 
中 已 有 的 命令 . 

执行 命令 

> load("MyWorkSpace.RData") 
具有 同样 的 功能 . 

(6) 保存 工作 空间 ... 

将 当前 的 工作 空间 映像 保存 成 一 个 文件 . 单 击 “ 保 存 工作 空间 . . .”, 打开 “ 保 
存 映像 到 ”窗口 ， 在 文件 名 窗口 输入 所 需 的 文件 和 名， 如 MyWorkSpace, 文件 类 型 
为 *.RData, 按 “保存 (3S)”, 则 当前 的 工作 空间 映像 就 保存 到 MyWorkSpace .RData 
文件 中 . 如 果 你 保存 的 文件 名 与 已 有 的 文件 名 重 名 ， 则 计算 机 会 提示 你 是 否 蔡 换 
已 有 文件 ， 你 可 选择 蔡 换 (是 (Y)), 或 不 蔡 换 ( 否 (N)). 

保存 工作 空间 映像 的 最 大 好 处 就 是 , 在 下 次 调用 时 ,不 必 执 行 本 次 运算 已 执 
行 的 命令 . 

执行 命令 

> save.image("MyWorkSpace.RData") 
具有 同样 的 功能 . 

(7) 载 入 历史 ... 

调 入 历史 记录 文件 到 内 存 中 . 调 入 后 ， 主 窗口 并 不 显示 调 入 内 容 ， 只 有 在 你 
按 上 下 盘 头 , 或 Ctrl+P 、 Ctrl+N, 才 在 命令 行 显示 历史 记录 . 这样 做 可 以 减少 
你 的 键盘 输入 . 

(8) 保存 历史 ... 
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将 在 主 窗口 操作 过 的 全部 记录 保存 到 一 个 文件 中 (后缀 为 .Rhistory)， 如 
MyWork.Rhistory. 该 文件 是 纯 文本 文件 ， 用 任何 编辑 器 均 能 打开 . 

(9) 改变 当前 目录 ... 

改变 你 当前 的 工作 目录 . 在 缺 省 状态 下 ， R 的 工作 目录 是 

C:\Program Files\R\rw2011 
如 图 2.7 所 示 . 在 窗口 输入 所 需 的 工作 目录 , 如 D:\XueYi\MyWorkSpace, 也 可 按 
Browse, 选择 所 需要 的 工作 目录 ， 按 OK 键 确认 . 





Change directory 


当前 目录 改 成 : 





图 2.7: 改变 当前 目录 窗口 


(10) 打印 ... 

打印 文件 . 

(11) 保存 到 文件 ... 

将 主 窗口 的 记录 保存 到 文本 文件 中 (lastsave.txt). 

(12) 退出 

退出 R 系统 .如 果 退 出 前 没有 保存 工作 空间 映像 ， 则 系统 会 提示 你 保存 工 
作 空 间 映 像 ， 你 可 选择 保存 (是 (Y)), 或 不 保存 ( 否 (N)). 

在 主 窗口 执行 q() 命令 ， 具有 同样 的 功能 . 

2. 编辑 

主 窗口 中 的 “编辑 ”窗口 如 图 2.8 所 示 . 

(1) 复制 

将 当前 选中 的 文本 复制 到 剪贴 板 中 . 

(2) 粘贴 

将 剪贴 板 中 的 内 容 粘 贴 到 命令 行 . 
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复制 Ctrl+C 
粘贴 Ctrl1+Y 
只 能 用 粘贴 命令 
复制 和 粘贴 CtrlHX 
选择 一 切 
清除 控制 台 Ctrl1+L 


数据 编辑 器 ... 








图 2.8: 主 窗口 中 的 编辑 菜单 


(3) 复制 和 粘贴 

将 当前 选中 的 文本 复制 到 剪贴 板 中 ， 并 将 剪贴 板 中 的 内 容 粘贴 到 命令 行 . 
(4) 选择 一 切 

选 定 主 窗口 中 的 所 有 文本 内 容 . 


(5) 清除 控制 台 

清除 主 窗 口中 的 所 有 文本 内 容 . 

(6) 数据 编辑 器 ... 

编辑 已 有 的 数据 变量 ， 并 将 新 数据 存 入 该 变量 . 例如， 在 例 2.3 中 ， 将 读 
出 的 数据 放 在 变量 rt 中 ， 现 需要 改动 rt 中 的 数据 ， 单 击 “ 数 据 编辑 器 弹出 
“Question” 窗口 ， 输 入 变量 rt, 如 图 2.9 所 示 .” 按 OK, 弹出 数据 编辑 窗口 ， 如 


Question 


数据 框 或 矩阵 名 








图 2.9: Question 窗口 
图 2.10 所 示 . 你 选择 需要 修改 的 数据 进行 修改 ， 修 改 后 关闭 该 窗口 ， 此 时 变量 
rt 中 的 数据 已 变 成 新 数据 . 
在 主 窗口 执行 fix(rt) 命令 ， 可 以 达到 同样 的 目的 . 
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图 2.10: 数据 编辑 带 窗口 


(7) GUI 选项 ... 

改变 R 的 图 形 用 户 界面 单 击 “GUI 选项 . ..”, 弹出 Rgui 配置 编辑 器 你 
可 根据 需要 更 改 配 置 编 辑 器 中 的 内 容 , 建议 初学 者 先 不 忙于 更 改 配 置 , 使 用 缺 省 
值 . 

3. 其 他 


主 窗 口中 的 “其 他 ”窗口 如 图 2.11 所 示 . 


列 出 目标 对 象 
山 除 所 有 的 目标 对 象 
列 出 查找 路径 





图 2.11: 主 窗 口中 的 其 他 莱 单 


(1) 中 断 目 前 的 计算 

单 击 “ 中 断 目 前 的 计算 ”可 停止 当前 正在 执行 的 程序 . 

(2) 缓冲 输出 

单 击 “ 缓 冲 输出 ”会 在 “缓冲 输出 ”前 出 现 或 取消 Vv, 即 执行 或 取消 缓冲 输 


(3) 列 出 目标 对 象 
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单 击 “ 列 出 目标 对 象 ， 列 出 全 部 变量 名 .在 主 窗口 执行 1s() 命令 ， 可 以 达 
到 同样 的 目的 . 
(4) 删除 所 有 目标 对 象 
单 击 “删除 所 有 目标 对 象 ， 将 全 部 变量 从 内 存 中 清除 . 在 主 窗口 执行 
rm(list=]s(all=TRUE)) 
命令 ， 可 以 达到 同样 的 目的 . 
(5) 列 出 查找 路 径 
单 击 “ 列 出 查找 路 径 ”, 列 出 查找 文件 (或 函数 ) 的 路 径 或 程序 包 ， 以 下 基本 
的 路 径 和 程序 包 . 
[1 ".G1obalEnv" "package:methods" "package:stats" 
[4] "package:graphics" "package:grDevices" "package:utils" 
[7] "package:datasets" "Autoloads" 


在 主 窗口 执行 search() 命令 ， 可 以 达到 同样 的 目的 . 


"package:base" 


4. 程序 包 
主 窗口 中 的 “程序 包 ” 窗口 如 图 2.12 所 示 . 


文件 编辑 其 地 上 到 2 明 窗口 ”帮助 





R Console 





用 本 机 的 zip 文 件 来 实 装 程序 包 . . 


图 2.12: 主 徐 口 中 的 “程序 包 ” 菜单 





(1) 载 入 程序 包 ... 

R 软件 除 上 述 基 本 程序 包 外 ， 还 有 许多 程序 包 ， 只 是 在 使 用 前 需要 调 入 . 
如 需要 读 SPSS 软件 的 数据 文件 ， 需 要 用 函数 read.spss, 但 在 使 用 前 需要 调 入 
foreign 程序 包 . 

单 击 “ 载 入 程序 包 . . .”, 弹出 选择 程序 窗口 ， 如 图 2.13 所 示 . 选择 foreign， 
按 确 定 ， 这 样 就 可 以 使 用 read.spss 函数 . 

(2) 选择 CRAN 镜像 
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Select one 





图 2.13: 选择 程序 包 窗 口 


单 击 “ 选 择 CRAN 镜像 弹出 CRAN 镜像 窗口 ,选择 一 个 镜像 点 ， 按 “确定 ”， 
联接 到 指定 的 镜像 点 . 

(3) 选择 存放 处 ，， 

选择 程序 包 库 ， 打 开 库 窗 口 ， 选 择 一 个 座 ， 按 “确定 "计算 机 将 自动 联接 到 
所 选 的 库 ， 

(4) 安装 程序 包 ，. 

安装 新 的 程序 包 ， 单 击 “ 安 装 程序 包 "， 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 镜 
像 点 ， 按 “确定 ". 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ， 并 自 
动 安装 . 

(5) 更 新 程序 包 .. 

更 新 已 有 的 程序 包 ， 单 击 “ 更 新 程序 包 ”, 弹出 CRAN 镜像 窗口 ， 选 择 合适 的 
镜像 点 ， 按 “确定 ”. 此 时 ， 计 算 机 将 自动 联接 到 指定 的 镜像 点 ， 下 载 程序 包 ,并 
自动 更 新 

(6) 用 本 机 的 zip 文件 来 安装 程序 包 . 

打开 “Select files”, 选择 需要 安装 的 zip 文件 
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5. 窗口 
主 窗口 中 的 “窗口 ”窗口 如 图 2.14 所 示 . 








图 2.14: 主 窗口 中 的 “窗口 ” 荣 单 


(1) 层 肥 

将 所 有 窗口 层 释 . 
(2) 平 铺 

将 所 有 窗口 平 铺 . 
(3) 安排 按钮 


6. 帮助 
主 窗 口中 的 “帮助 ”窗口 如 图 2.15 所 示 . 








关于 Windows 上 了 FR 的 FA 
手册 人 IF 文件 ) RA 入门 

R 欧 考 手册 
a - k 油 据 导入 /导出 
奉 找 帮 助 Ri 语言 定义 
= a 如 何 写 R 扩 展 程 序 


search.r-project. ore ... 














图 2.15: 主 窗口 中 的 “帮助 ”菜单 


(1) 控制 台 
说 明 控制 命令 单 击 “ 控 制 台 ”, 弹出 说 明 控 制 命令 窗口 ， 如 图 2.16 所 示 . 在 
窗口 中 说 明 全 部 的 控制 命令 . 
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Information 


本 ] 滚动 。 
证 P Felown, Ctrl+ 和 前头 键 ， CtrltHome, Ctrlt+End, 
YW 莉 网 虽 


个 网 2 加 村 
去 前 冻 或 Ctrl48: 左 移 一 字符 ; 
右前 头 或 Ctrl+F:， 右 移 一 字符 ; 
Home 或 Ctrl1+hA: 移 色 | 行头 ; 
End 或 Ctrl+E: 移 到 行 尾 ; 
历史 : 上 ， 下 散 头 ，Ctrl+P，Ctrl+ 了 


| 除 : 
De 或 Ctrl 山竹 在 此 前 们 和 的 字 竺 : 


Ctrl+U: 从 目 前 所 在 的 得 开始 
复制 和 粘贴 . 

用 鼠标 (持续 按 下 左 键 ) 来 选择 六 

用 Shi ft+Del [或 Ctrl+C) 把 选择 9 

用 Shi ft+Ins (或 Ctr1ty 或 Ctr1+Y) 来 粘贴 前 贴 要 的 内 容 出 0 果 有 的 话 ) 

到 控制 台 ，Ctrl11+X 先 复制 再 粘贴 


他 : 

Ctrl+L: 清除 控 

Ctrl+0: ie ti 最 初 是 关 掉 的 。 

Ctrl4T: 将 目前 所 在 位 置 的 字符 与 其 左 方 的 字符 交换 。 


注意 : 只 用 折 入 时 控制 二 有 被 更 新 。 
用 CtrlHy 来 开关 这 一 


用 FSC 来 中 断 注释 器 。 


可 以 用 Windows 的 标准 热 键 来 转换 
绎 图 设备 (IDI 用 Ctrl+Tab 或 Ctrl+F6，SDI 用 各 ttTab) 





图 2.16: 控制 命令 窗口 


(2) 关于 的 FAQ 

及 常见 问答 .| FAQ 是 frequently asked questions 的 简写 单 击 “ 关 于 R 的 
FAQ”, 弹出 R FAQ 网 页 式 窗口 ， 解 释 R 的 基本 问题 ，R 的 介绍 、 R 基本 知 
识 、R 语言 与 S 语言 ， 以 及 R 程序 等 . 

(3) 关于 Windows 上 R 的 FAQ 

关于 R 软件 的 进一步 的 常见 问答 . 单 击 “关于 R 的 FAQ”, 弹出 R for Win- 
dows FAQ 网 页 式 窗 口 ， 其 内 容 有 安装 与 用 户 、 程 序 包 、Windows 的 特点 、 工 作 
空间 和 控制 台 与 字体 等 ， 该 窗口 的 问题 更 加 深入 . 

(4) 手册 (PDF 文件 ) 


给 出 R 软件 的 使 用 手册 . 有 《 及 入 门 》、《 R 参考 手册 》、《 R 数据 导入 
/ 导出 》、《 及 语言 的 定义 》、《 写 R 扩展 程序 》 和 《 R 安装 与 管理 》. 所 有 
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手册 均 是 PDF 格式 的 文件 :. 这 些 手册 为 学 习 R 软件 提供 了 有 利 的 帮助 . 

以 上 三 条 文本 帮助 文件 是 逐步 深入 的 ， 用 它们 可 以 帮助 使 用 者 快速 掌握 及 
软件 的 使 用 . 

(5) R 函数 (文本 文件 )… 

帮助 命令 . 相当 于 help("Fun_Name"). 单 击 “R 函数 (文本 文件 )…”, 出 现 
帮助 对 话 窗口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 按 OK， 
则 屏幕 上 会 出 现 新 的 对 话 框 ， 解 释 lm 的 意义 与 使 用 方法 . 

当 帮 助 不 成 功 时 , 计算 机 会 建议 你 使 用 help.search("read.spss'")( 查 找 帮 
助 ). 

(6) Html 帮助 

网 页 形式 的 帮助 窗口 . 单 击 “Html 帮助 ”弹出 网 页 形式 的 窗口 菜单 ， 使 用 
者 可 以 选择 需要 帮助 的 内 容 ， 双 击 ， 打 开 需 要 的 内 容 . 

(7) 查找 帮助 .. . 

查找 帮助 ， 相 当 于 help.search("Fun_Name"). 单 击 “查找 帮助 . . .”, 出 现 
查找 帮助 对 话 窗口 ， 在 窗口 中 输入 需要 帮助 的 函数 名 ， 如 lm( 线 性 模型 ) 函数 ， 
按 OK 键 ， 则 屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 与 Im (线性 模型 ) 有 关 的 全 部 
函数 名 (包括 广义 线性 模型 函数 名 ). 

(8) search.r-project.org 

在 网 站 上 查找 ， 单 击 “search.r-project.org”, 屏幕 出 现 “ 搜 索 邮 件 列 表 档 案 
和 文档 ”对 话 框 ,输入 查找 内 容 ， 则 计算 机 将 自动 联接 网 站 ( http://search.r- 
project.org), 查找 你 需要 的 内 容 . 

(9) 关于 ... 

列 出 相关 的 函数 与 变量 . 相当 于 apropos ("Fun_Name"). 单 击 “关于 ...”， 
出 现 关 于 对 话 和 窗口 ， 在 和 窗口 中 输入 需要 查找 的 函数 名 或 变量 名 ， 如 lm, 按 OK, 则 
屏幕 上 会 出 现 新 的 对 话 框 ， 上 面 列 出 含有 字符 串 lm 的 全 部 函数 名 与 变量 名 . 

注意 ，“R 函数 (文本 文件 )..” 和 “关于 . . .” 是 在 当前 已 有 的 程序 包 中 查 
找 , 而 “查找 帮助 . . .” 是 在 整个 程序 包 中 查找 . 例如 ，“ 帮 助 ” 和 “关于 ”对 话 杠 
中 输入 “read.spss”( 读 SPSS 数据 文件 函数 ), 则 主 窗口 出 现 “character(0)”， 


“需要 在 你 的 计算 机 中 安装 PDF 阅读 软件 Adobe Acropat Reader 才能 阅读 使 用 手册 . 
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即 无 法 查 到 . 而 利用 “查找 帮助 ”对 话 框 ， 则 屏幕 上 会 出 现 新 的 窗口 ， 告 诉 你 
read.spss 属于 foreign 程序 包 . 

(10) R 主页 

联接 到 R 主页 ， 即 http://www.r-project.org/ 

(11) CRAN 主页 

联接 到 CRAN 主页 ， 即 http://cran.r-project.org/. 

(12) 关于 

介绍 R 的 版 本 信息 . 


2.2 数字、 字符 与 向 量 


本 闻 介 绍 R 软件 最 简单 的 运算 ， 数 字 与 向 量 的 运算 . 





2.2.1 向量 


1. 向 量 的 赋值 
R 软件 中 最 简单 的 运算 向 量 赋值 ， 如 果 打 算 建 立 一 个 名 为 的 向 量 ， 相 应 
的 分 量 是 10.4, 5.6, 3.1, 6.4 和 21.7, 用 R 命令 是 
> x <- c(10.4, 5.6, 3.1, 6.4, 21.7) 
其 中 zx 是 变量 名 ， <- 为 赋值 符 ， c( ) 为 向 量 建立 函数 . 上 述 命令 就 是 将 函数 
c( ) 中 数据 赋 给 变量 x. 
另 一 个 赋值 函数 是 assign( ), 其 命令 形式 为 
> assign("x"，c(10.4，5.6，3.1，6.4，21.7)) 
第 三 种 赋值 形式 为 
> c(10.4, 5.6, 3.1, 6.4, 21.7) -> x 
进一步 有 
>y <- c(x, 0, x) 


定义 变量 y 有 11 个 分 量 ， 其 中 两 边 是 变量 + ， 中 间 是 零 ， 
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对 于 向 量 可 以 作 加 (+)、 减 (-) 、 乘 (*) 、 除 (/) 和 乘 方 (人 ) 运算 ， 其 含意 
是 对 疝 量 的 每 一 个 元 素 进 行 运算 , 其 中 加 、 减 和 数 乘 运算 与 我 们 通常 的 向 量 运 
基本 相同 ， 如 

> x <- c(-1, 0, 2); y <- c(3, 8, 2) 

>vV<- 2*x+y+1;yv 

[1] 2 9 7 
第 一 行 , 输入 向 量 x 和 y. 第 二 行 , 将 向 量 的 计算 结果 赋 给 变量 w 其 中 2*x+y 是 
作 通 常 的 向 量 运算 ， +1 表示 向 量 的 每 个 分 量 均 加 1. 分 号 后 的 v 是 为 显示 计算 
内 容 ， 因 为 R 软件 完成 计算 后 进行 赋值 ， 并 不 显示 相应 的 计算 内 容 . 

对 于 向量 的 乘法 、 除 法 、 乘 方 运算 , 其 意义 是 : 对 应 向 量 的 每 个 分 量 作 乘 法 、 

除法 和 乘 方 运算 ， 如 
>x*y 
[1] -3 0 4 
>x/y 
[1] -0.3333333 0.0000000 1.0000000 
> x°2 
[1] 1 0 4 
>y x 
[1] 0.3333333 1.0000000 4.0000000 
由 于 没有 作 赋 值 运算 ， 所 以 ， R 在 运算 后 会 直接 显示 计算 结果 . 

另外 ， 匈 / % 表示 整数 除法 (例如 5 % / %3 为 1), % % 表示 求 余数 (例如 
5%%3 为 2). 

还 可 以 作 函 数 运 算 ， 如 基本 初等 函数 ， 如 log, exp, cos, tan, sqrt 等 . 当 自 变 
量 为 向量 时 ， 函 数 的 返回 值 也 是 向 量 ， 即 每 个 分 量 取 相应 的 函数 值 . 如 

> exp(x) 
[1] 0.3678794 1.0000000 7.3890561 









































> sqrt(y) 

[1] 1.732051 2.828427 1.414214 
但 sqrt(-2) 会 给 出 NAN 和 相应 的 敬告 信息 ， 因 为 负数 不 能 开 方 . 但 如 果 需 要 作 
复数 运算 ， 则 输入 形式 应 改 为 sqrt (-2+0i). 


3. 与 向 量 运 算 有 关 的 函数 
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介绍 一 些 与 向 量 运 算 有 关 的 函数 . 
(1) 求 向 量 的 最 小 值 、 最 大 值 和 范围 的 函数 . 
min(Z) 、 max(z) 、 Irange(Z) 分 别 表示 求 向 量 x 的 最 小 分 量 、 最 大 分 量 和 
向 量 z 的 范围 ， 即 Imin(z), max(z)]. 如 
> X<- c(10, 6, 4, 7, 8) 
> min(x) 
[1] 4 
> max(x) 
[1] 10 
> range(x) 
[1] 4 10 
与 min() (max()) 有 关 的 函数 是 which.min() (which.max()), 表示 在 第 几 个 
分 量 求 到 最 小 (最 大 ) 值 ， 如 
> which.min(x) 
[1] 3 
> which.max(x) 
[1] 1 
(2) 求 和 函数 、 求 乘积 函数 . 
sum(z) 表示 求 向 量 > 分 量 之 和 ， 即 沁 zi prod(z) 表示 求 向 量 x 分 量 联 科 
积 ， 即 II zi. 还 有 length(x) 表示 求 向 量 x 分 量 的 个 数 ， 即 nn. 
(3 ) 中 位 数 、 均值 、 方 差 、 标 准 差 和 顺序 统计 量 . 
median(z) 表示 求 向 量 x 的 中 位 数 . mean(x) 表示 求 向 量 x 的 均值 ， 即 
sum(Z)/length(z). var(x) 表示 求 向 量 x 的 方差 ， 即 
var(z) = sum ((z — mean(7x))’) /(length(x) — 1). 
sd(z) 表示 求 向 量 z 的 标准 差 ， 即 sd(z) = Vvar(7x). 
sort(x) 表示 求 与 向 量 x 大 小 相同 , 按 递增 顺序 排列 的 向 量 , 即 顺序 统计 量 . 
相应 的 下 标 由 order(z) 或 sort.list(z) 列 出 . 例如 ， 当 x<-c(10，6，4，7，8) 
时 ，sum(z) 、prod(z) 、length(z) 、median(x) 、mean(z) 、var(x) 和 sort(Z) 
的 计算 结果 分 别 是 35 、13440 、5 、7 、7、5 和 4 6 7 8 10. 
有 关 均 值 、 方 差 等 统计 量 的 性 质 和 函数 的 使 用 方法 ， 在 第 三 章 还 会 介绍 . 
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2.2.2 ”产生 有 规律 的 序列 


1. 等 差 数 列 


a:b 表示 从 a 开始 ， 逐 项 加 1( 或 减 1), 直到 b 为 止 . 如 x <- 1:30 表示 向 
量 z= (1,2,:…,30), x <- 30:1 表示 向 量 x = (30,29,…,1). 当 a 为 实数 ，b 
为 整数 时 ， 向 量 a:b 是 实数 ， 其 间隔 差 1. 而 当 a 为 整数 ，b 为 实数 时 ， a:b 表 
示 其 间隔 差 1 的 整数 向 量 ， 如 

> 2.312:6 

[1] 2.312 3.312 4.312 5.312 
> 4:7.6 

[1] 4567 

注意 :x <- 2*1:15 并 不 是 表示 2 到 15, 而 是 表示 向 量 x = (2,4,:……,30)， 
即 x <- 2 * (1:15), 也 就 是 等 差 运 算 优 于 乘法 运算 . 同 理 ，1:n-1 并 不 是 表示 
1 到 n-1, 而 是 表示 问 量 1:n 减 去 1. 若 需 要 表示 1 到 n-1, 则 需要 对 n-1 加 括号 . 
比较 下 面 两 种 表示 的 差别 . 


> n<-5 








> 1:n-1 
[1] O1234 
> 1:(n-1) 
[1] 1234 
注意 ， 这 一 点 对 于 初学 者 非常 容易 引起 混淆 . 
2. 等 间隔 函数 
seq() 函数 是 更 一 般 的 函数 ， 它 产生 等 距 间 隔 的 数列 ， 其 基本 形式 为 
sedq(from=valuel, to= value2, by=value3) 
即 从 valuel 开始 ， 到 value2 结束 ， 中 间 的 间隔 为 value3. 如 
> seq(-5, 5, by=.2) -> sl 
表示 向 量 sl = (一 5.0, 一 4.8, 一 4.6,.……,4.6, 4.8, 5.0). 从 上 述 定义 来 看 ，seq(2,10) 
等 价 于 2:10, 在 不 作 特别 声明 的 情况 下 ， 其 间隔 为 1. 
对 于 seq 函数 还 有 田 一 种 使 用 方式 ， 


seq(length=value2, from=valuel, by=value3) 








70 第 二 章 R 软件 的 使 用 


即 从 valuel 开始 ， 间 隔 为 value3, 其 向 量 的 长 度 为 value2. 如 
> s2 <- seq(length=51, from=-5, by=.2) 
产生 的 s2 与 向 量 sl 相同 ， 
3. 重复 函数 
rep() 是 重复 函数 ， 它 可 以 将 某 一 向 量 重 复 若 干 次 再 放 入 新 的 变量 中 ， 如 
> s <- rep(x, times=3) 
即将 变量 x 重复 3 倍 ， 放 在 变量 s 中 .如 
> x <- c(1, 4, 6.25); x 
[1] 1.00 4.00 6.25 


> s <- rep(x, times=3); s 


[1] 1.00 4.00 6.25 1.00 4.00 6.25 1.00 4.00 6.25 














2.2.3 ”逻辑 向 量 
与 其 它 语言 一 样 ， R 软件 允许 使 用 逻辑 操作 当 逻 辑 运算 为 真 时 ， 返 回 值 
为 TRUE, 当 钦 辑 运算 为 假 时 ， 返 回 值 为 FALSE. 例如 
> x <- 1:7 


>1<-x>3 


>1 
[1] FALSE FALSE FALSE TRUE TRUE TRUE TRUE 
逻辑 运算 符 有 《<，<=，>，>=，== (表示 等 于 ) 和 !=( 表 示 不 等 于 ). 如 果 cl 
和 c2 是 两 个 逻辑 表达 式 ， 则 cl & c2 表示 cl “与 ” c2, cl | c2 表示 cl “或 ” 
c2,，!cl 表示 “ 非 cl ”. 
逻辑 变量 也 可 以 赋值 ， 如 
> Z <- c(TRUE, FALSE, F, TT) 
其 中 T 是 TRUE 的 简写 ，F 是 FALSE 简写 . 
判断 一 个 逻辑 回 量 是 否 都 为 真 值 的 函数 是 al1, 如 
> all(c(1, 2, 3, 4, 5, 6, 7) > 3) 
[1] FALSE 
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判断 是 否 其 中 有 真 值 的 函数 是 any, 如 
> any(c(1, 2, 3, 4, 5, 6, 7) > 3) 
[1] TURE 


2.2.4 ”缺失 数据 
用 NA 表示 某 处 的 数据 缺 省 或 缺失 ， 如 


>z <- c(1:3, NA); z 
[1] 1 2 3 NA 
函数 is.na() 是 检测 缺失 数据 的 函数 ,如 果 返 回 值 为 真 (TRUE), 则 说 明 此 数 
据 是 缺失 数据 .如 果 返 回 值 为 假 (FALSE), 则 此 数据 不 是 缺失 数据 ， 如 
> ind <- is.na(z); ind 


[1] FALSE FALSE FALSE TRUE 
如 果 需 要 将 缺失 数据 改 为 0, 则 用 如 下 命令 


> z[is.na(z)] <- 0; Zz 

[1] 1 230 
类 似 的 函数 还 有 is .nan() (检测 数据 是 否 不 确定 ，TRUE 为 不 确定 , FALSE 为 确定 )， 
is.finite() (检测 数据 是 否 有 限 ， TRUE 为 有 限 ，FALSE 为 无 穷 )， is.infinite() 
(检测 数据 是 否 为 无 穷 ， TRUE 为 无 穷 ， FALSE 为 有 限 ). 例如 ， 

> x<-c(0/1, 0/0, 1/0, NA); x 

[1] 0 NaN Inf NA 

> is.nan(x) 

[1] FALSE TRUE FALSE FALSE 

> is.finite(x) 

[1] TRUE FALSE FALSE FALSE 

> is.infinite(X) 

[1] FALSE FALSE TRUE FALSE 

> is.na(X) 

[1] FALSE TRUE FALSE TRUE 
在 x 的 四 个 分 量 中 ， 0/1 为 0, 只 有 在 is.finite 的 检测 下 是 真 ， 其 余 均 为 假 . 
0/0 为 不 确定 ， 但 对 函数 is.nan 和 is.na 的 检测 下 均 为 真 ， 这 是 因为 不 确定 数 
据 也 认为 是 缺失 数据 . 1/0 为 无 穷 ， 因此 只 在 is.infinite 检测 下 为 真 ， NA 
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为 缺失 数据 ， 只 有 在 is .na 检测 下 为 真 ， 因 为 缺失 数据 并 不 是 不 确定 数据 ， 所 以 
在 is.nan 检测 下 仍 为 假 . 

如 果 对 不 确定 数据 、 缺 失 数据 赋值 ， 可 以 采用 对 缺失 数据 赋值 的 方法 为 它们 
赋值 . 
2.2.5 ”字符 型 向 量 


向 量 元 素 可 以 取 字 符 串 值 ， 例 如 ， 








> y <-c ("er", "sdf", "eir", "jk", "dim") 
或 

> cl"er", "sdf", "eir", "jk", "dim") ->y 
则 得 到 

2 


[1] "er" "sdf" "eir" "jk" "dim" 
可 用 paste 函数 用 来 把 它 的 自 变量 连 成 一 个 字符 串 ， 中 间 用 空格 分 开 ， 例 如 ， 
> paste("My","Job") 
[1] "My Job" 
连接 的 自 变 量 可 以 是 向 量 , 这 时 各 对 应 元 素 连 接 起 来 ,长 度 不 相同 时 较 短 的 向 量 
被 重复 使 用 ， 自 变量 可 以 是 数值 向 量 ， 连 接 时 自动 转换 成 适当 的 字符 串 表 示 ， 合 
如 ， 
































> labs<-paste("X", 1:6, sep = ""); labs 
[1] "Xi1" "X2" "X3" "X4" "X5" "X6" 
分 隔 用 的 字符 可 以 用 sep 参数 指定 ， 例 如 下 例 产生 若干 个 文件 名 ， 
> paste("result.", 1:4, sep="") 
[1] "result.1" "result.2" "result.3" "result.4" 
关于 paste 函数 ， 还 有 以 下 几 种 用 法 . 
> paste(1:10) # same as as.character(1:10) 
[0 
> paste("Today is", date()) 
[1] "Today is Tue Sep 13 16:16:29 2005" 
> paste(c(’a’, ’b’), collapse=’.’) 
[1] "a.b" 
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2.2.6 ”复数 向 量 


R 支持 复数 运算 复数 常量 只 要 用 通常 的 格式 ， 如 3.5+2.1i. complex 模式 
的 向 量 为 复数 元 素 的 向 量 ， 可 以 用 complex() 函数 生成 复数 向 量 ， 如 
> x <- seq(-pi, pi, by=pi/10) 








y <- sin(x) 
Z <- complex(re=x, im=y) 


plot (z) 








> 
> 
> 
> lines(z) 
行 


其 中 第 一 行 是 给 出 向 量 x 的 值 ， 第 二 行 是 计算 向 量 y 的 值 ， 第 三 行 是 构造 复数 





0.5 
| 


Im(z) 
0.0 
| 








-1.0 





Pe: 2 | 0 1 2 3 
Re(z) 


图 2.17: 复数 z= z+isin(z) 的 散 点 图 和 折线 图 











向 量 ， 其 中 x 为 实 部 ，y 为 虚 部 ， 第 四 行 是 绘 出 复数 向 量 z 的 散 点 图 ， 第 五 行 
是 用 实 线 连接 这 些 散 点 . 图 2.17 给 出 了 相应 的 图 形 . 

对 于 复数 运算 ， Re() 是 计算 复数 的 实 部 ， Im() 是 计算 计算 复数 的 虚 部 ， 
Mod() 是 计算 复数 的 模 ， Arg() 是 计算 复数 的 幅 角 . 


2.2.7 ”向 量 下 标 运 算 


R 软件 提供 了 十 分 灵活 的 访问 向 量 元 素 和 向 量子 集 的 功能 . 某 一 个 元 素 只 
要 用 x[i] 的 格式 访问 ， 其 中 x 是 一 个 向 量 名 ， 或 一 个 取向 量 值 的 表达 式 ， 如 
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> x <- c(1,4,7) 
> x[2] 
[1] 4 
> (c(1, 3, 5) + 5) [2] 
[1] 8 
可 以 单独 改变 一 个 元 素 的 值 ， 如 
> x[2] <- 125 
之 : : 丈 
[1] 1 125 这 


> x[c(1,3)] <- c(144, 169) 
>X 


[1] 144 125 169 


1. 逻辑 向 量 





V 为 和 x 等 长 的 逻辑 向 量 ， x[v] 表示 取出 所 有 v 为 真 值 的 元 素 ， 如 
> x <- c(1,4,7) 
>x<5 
[1] TRUE TRUE FALSE 
> x[x<5] 
[1] 1 4 
可 以 将 向 量 中 缺失 数据 赋 为 0, 如 
> Z <- c(-1，1:3，NA) 
> Z[is.na(Z)] <- 0 
> Z 
[1] -1 1 2 3 0 
也 可 以 将 向 量 中 非 缺 失 数据 赋 给 另 一 个 向 量 ， 如 
> Z <- c(-1，1:3，NA) 
> y <- z[!is.na(z)] 
> 
[1] -1 1 2 3 
或 作 相应 的 运算 ， 
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> (z+1)[(!is.na(z)) & 2z>0] -> x 


> 文 
[1] 2 3 4 
改变 部 分 元 素 值 的 技术 与 逻辑 值 下 标 方 法 结合 可 以 定义 癌 量 的 分 段 函 数 , 例 
如 ， 要 定义 
1—7x, TX<0 
i zr>0 
可 以 用 


> y <- numeric(length(x)) 
> y[x<0] <- 1 - x[x<0] 
> y[x>=0] <- 1 + x[x>=0] 
来 表示 ， 其 中 numeric 函数 是 产生 数值 型 向 量 . 
2. 下 标的 正 整 数 运算 


v 为 一 个 向 量 ， 下 标 取 值 在 1 到 length(v) 之 间 ， 取 值 允 许 重 复 ， 例 如 ， 
> V<- 10:20 
> v[c(1,3,5,9)] 
[1] 10 12 14 18 
> v[1:5] 
[1] 10 11 12 13 14 
> v[c(1,2,3,2,1)] 
[1] 10 11 12 11 10 
> cl("a","b",'"c") [rep(c(2,1,3), times=3)] 


[1] Ug oR SN en We a WW eal Mp" ye en 
3. 下 标的 负 整 数 运算 


Y 为 一 个 向 量 ， 下 标 取 值 在 一 lenght (x) 到 一 1 之 间 ， 如 
> v[-(1:5)] 
[1] 15 16 17 18 19 20 
表示 扣除 相应 的 元 素 . 


4. 取 字 符 型 值 的 下 标 向 量 
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在 定义 向 量 时 可 以 给 元 素 加 上 名 字 ， 如 
> ages <- c(Li=33, Zhang=29, Liu=18) 
> ages 
Li Zhang Liu 
33 29 18 
这 样 定义 的 向 量 可 以 用 通常 的 办 法 访问 ,另外 还 可 以 用 元 素 名 字 来 访问 元 素 或 元 
素 子 集 ， 例 如 ， 
> ages["Zhang"] 











Zhang 
29 


向 量 元 素 名 可 以 后 加 ， 如 
> fruit <- c(5, 10, 1, 20) 
> names(fruit) <- c("orange", "banana", "apple", "peach") 
> fruit 
orange banana apple peach 
5 10 1 20 


2.3 ”对 象 和 它 的 模式 与 属性 


R 是 一 种 基于 对 象 的 语言 . R 的 对 象 包含 了 若干 个 元 素 作 为 其 数据 ， 另 外 
还 可 以 有 一 些 特殊 数据 称 为 属性 (attribute), 并 规定 了 一 些 特定 操作 (如 打印 、 
绘图 ). 比如 ， 一 个 向 量 是 一 个 对 象 ， 一 个 图 形 也 是 一 个 对 象 . R 对 象 分 为 单纯 
(atomic) 对 象 和 复合 (recursive) 对 象 两 种 ， 单 纯 对 象 的 所 有 元 素 都 是 同一 种 基 
本 类 型 (如 数值 、 字 符 串 ), 元 素 不 再 是 对 象 ， 复 合 对 象 的 元 素 可 以 是 不 同类 型 的 
对 象 ， 每 一 个 元 素 是 一 个 对 象 . 





2.3.1 固有 属性 : mode 和 length 
R 对 象 都 有 两 个 基本 的 属性 : mode( 类 型 ) 属性 和 length( 长 度 ) 属性 . 比 
如 向 量 的 类 型 为 logical( 人 逻辑 型 ) 、 numeric( 数 值 型 ) 、 complex( 复 数 型 ) 、 
character( 字 符 型 ), 比如 
> mode(c(1,3,5)>5) 
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[1] "logical" 
R 对 象 有 一 种 特别 的 nul1( 空 值 型 ) 型 ， 只 有 一 个 特殊 的 NULL 值 为 这 种 类 
型 ， 表 示 没 有 值 (不 同 于 NA, NA 是 一 种 特殊 值 ， 而 NULL 根本 没有 对 象 值 ). 
要 判断 某 对 象 是 否 某 类 型 ， 有 许多 个 类 似 于 is.numeric() 的 函数 可 以 完 
成 . is.numeric(x) 用 来 检验 对 象 x 是 否 为 数值 型 ， 它 返回 一 个 逻辑 型 结果 . 
is.character() 可 以 检验 对 象 是 否 为 字符 型 ， 等 等 ， 如 


>z <- 0:9 





> is.numeric(z) 
[1] TRUE 
> is.character(z) 
[1] FALSE 
长 度 属性 表示 及 对 象 元素 的 个 数 ， 比 如 
> length(2:4) 
[1] 3 
> length(z) 
[1] 9 
注意 向 量 允 许 长 度 为 0, 如 数值 型 癌 量 长 度 为 零 表 示 为 numeric() 或 numeric(0)， 
字符 型 向 量 长 度 为 零 表 示 为 character() 或 character(0). 
R 可 以 强制 进行 类 型 转换 ， 例 如 
> digits <- as.character(Z); digits 


[1] "On 地 小 玉 Wt 30 EU 50 161 有 7 8" 090 














> d <- as.numeric(digits); d 

[1] O123456789 
第 一 个 赋值 把 数值 型 的 z 转换 为 字符 型 的 digits， 第 二 个 赋值 把 digits 又 转 
换 为 了 数值 型 的 du 这 时 d 和 z 是 一 样 的 了 . R 还 有 许多 这 样 的 以 as. 开头 的 


2.3.2 ”修改 对 象 的 长 度 


对 象 可 以 取 0 长 度 或 正 整数 为 长 度 . R 人 允许 对 超出 对 象 长 度 的 下 标 赋值 ， 
这 时 对 象 长 度 上 自动 伸 长 以 包括 此 下 标 ， 未 赋值 的 元 素 取 缺 失 值 (NA), 例如 
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> x <- numeric() 


> x[3] <- 17 
> 
[1] NA NA 17 
要 增加 对 象 的 长 度 只 需 作 赋值 运算 就 可 以 了 ， 如 
> X<- 1:3 
> X <- 1:4 
[1] 1 2 34 





要 缩短 对 象 的 长 度 又 怎么 办 呢 ? 只 要 给 它 赋 一 个 长 度 短 的 子 集 就 可 以 了 . 如 
> x <- x[1:2] 
>xX 
[1] 1 2 
> alpha <- 1:10 
> alpha <- alpha[2 * 1:5] 
> alpha 
[1] 2 4 6 8 10 
或 给 对 象 的 长 度 赋值 ， 如 
> length(alpha) <- 3 
> alpha 
[1] 2 4 6 


2.3.3” attributes() 和 attr() 函数 


attributes (object) 返回 对 象 object 的 各 特殊 属性 组 成 的 列表 ， 不 包括 
固有 属性 mode 和 length. 例如 ， 
> x <- c(apple=2.5,orange=2.1); x 
apple orange 
2.5 2 二 
> attributes (x) 
$names 


[1] "apple" "orange" 
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可 以 用 attr(object，name) 的 形式 存 取 对 象 object 的 名 为 name 的 属性 . 例 
如 ， 
> attr(x,'"names'") 
[1] "apple" "orange" 
也 可 以 把 attr() 函数 写作 赋值 的 左边 以 改变 属性 值 或 定义 新 的 属性 ， 例 如 ， 
> attr(x,'"names") <- c("apple",'"grapes'"); x 
apple grapes 
2.5 ,和 
> attr(x, "type") <- "fruit"; x 
apple grapes 
2.5 2 
attr(,'"type") 
[1] "fruit" 
> attributes (x) 
$names 


[1] "apple" "grapes" 


$type 
[1 “fruit” 


2.3.4 ”对 象 的 class 属性 


在 及 中 可 以 用 特殊 的 class 属性 来 支持 面向 对 象 的 编程 风格 , 对 象 的 class 
属性 用 来 区 分 对 象 的 类 , 可 以 写 出 通用 函数 根据 对 象 类 的 不 同 进行 不 同 的 操作 ， 
比如 ， print() 函数 对 于 回 量 和 矩阵 的 显示 方法 就 不 同 ，pPlot() 函数 对 不 同类 
的 自 变量 作 不 同 的 图 形 . 

为 了 暂时 去 掉 一 个 有 类 的 对 象 的 class 属性 ， 可 以 使 用 unclass (object) 
函数 . 








2.4 因子 


统计 中 的 变量 有 几 种 重要 类 别 : 区 间 变 量 、 名 义 变量 和 有 序 变量 . 区间 变 量 
取 连 续 的 数值 ， 可 以 进行 求 和 、 平 均值 等 运算 ,名义 变量 和 有 序 变量 取 离 散 值 ， 
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可 以 用 数值 代表 ， 也 可 以 是 字符 型 值 ， 其 具体 数值 没有 加 减 乘除 的 意义 ， 不 能 用 
来 计算 ， 而 只 能 用 来 分 类 或 计数 .名义 变量 如 性 别 、 省 份 、 职 业 ， 有 序 变 量 如 班 





2.4.1 factor() 函数 











因为 离散 变量 有 各 种 不 同 表示 方法 , 在 R 软件 中 , 为 了 统一 起 见 , 使 用 因子 
(factor) 来 表示 这 种 类 型 的 变量 . 例如， 知道 5 位 学 生 的 性 别 ， 用 因子 变量 表示 
> sex <- cM ,nF , "M", "M", "FF") 
> sexf <- factor(sex); sexf 
[1] MF MMF 
Levels: FM 
函数 factor() 用 来 把 一 个 向 量 编码 成 为 一 个 因子 ， 其 一 般 形式 为 : 
factor(x, levels = sort(unique(x), na.last = TRUE) ， 
labels, exclude = NA, ordered = FALSE) 
其 中 x 是 向 量 ， levels 是 水 平 ， 可 以 自行 指定 各 离散 取 值 ， 不 指定 时 由 x 的 不 
同 值 来 求 得 ， labels 可 以 用 来 指定 各 水 平 的 标签 ， 不 指定 时 用 各 离散 取 值 的 对 
应 字符 串 ， exclude 参数 用 来 指定 要 转换 为 缺失 值 (NA) 的 元 素 值 集合 ， 如 果 
指定 了 levels, 则 因子 的 第 i 个 元 素 当 它 等 于 水 平 中 第 j 个 时 元 素 值 取 "j", 如 
果 它 的 值 没有 出 现在 levels 中 ， 则 对 应 因子 元 素 值 取 NA. ordered 取 值 为 真 
(TRUE) 时 , 表示 因子 水 平 是 有 次 序 的 ( 按 编码 次 序 ); 否则 ( 缺 省 值 ) 是 无 次 序 的 . 
可 以 用 is.factor() 检验 对 象 是 否 因子 ， 用 as .factor() 把 一 个 向 量 转 换 
成 一 个 因子 . 
用 函数 levels() 可 以 得 到 因子 的 水 平 ， 如 
> sex.level <- levels(sexf); sex.level 
[1] "EF" "M" 
对 于 因子 向 量 ， 可 用 函数 table() 来 统计 各 类 数据 的 频数 .例如 ， 


> Sex.tab <- table(sexf); sex.tab 











sexf 
F M 
2. 3 
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表示 男性 3 人 ,女性 2 人 . table() 的 结果 是 一 个 带 元 素 名 的 向 量 ， 元 素 名 为 
因子 水 平 ， 元 素 值 为 该 水 平 的 出 现 频数 . 关于 table 的 使 用 方法 ,在 后 面 还 会 讲 
到 . 


2.4.2 tapply() 函数 
我 们 除了 知道 5 位 学 生 的 性 别 ， 还 知道 5 位 学 生 的 身高 ， 分 组 求 身 高 的 平 
均值 . 


> height <- c(174, 165, 180, 171, 160) 
> tapply(height, sex, mean) 


F M 
162.5 175.0 
函数 tapply() 的 一 般 使 作 格 式 为 : 
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE) 


其 中 X 是 一 对 象 ， 通 常 是 一 向 量 ， INDEX 是 与 X 有 同样 长 度 的 因子 ， FUN 是 需 
要 计算 的 函数 ， simplify 是 逻辑 变量 ， 取 为 TRUE( 缺 省 ) 和 FALSE. 


2.4.3 gl1() 函数 








g1() 函数 可 以 方便 地 产生 因子 ， 其 一 般 用 法 是 
gl(n, k, length = n*k, labels = 1:n, ordered = FALSE) 
其 中 为 水 平 数 ，k 为 重复 的 次 数 ， length 为 结果 的 长 度 ， labels 是 一 个 n 


维 向 量 ,表示 因子 水 平 ，ordered 是 逻辑 变量 ， 表 示 是 否 为 有 序 因子 ， 缺 省 值 为 
FALSE. 如 

















> gl1(3,5) 

[1] 111112222233333 
Levels: 123 

> gl1(3,1,15) 

[1] 123123123123123 
Levels: 123 
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2.5 多维 数组 和 和 矩阵 
2.5.1 ”生成 数组 或 矩阵 


数组 (array) 可 以 看 成 是 带 多 个 下 标的 类 型 相同 的 元 素 的 集合 ， 常 用 的 是 数 
值 型 的 数组 如 矩阵 ， 也 可 以 有 其 它 类 型 (如 字符 型 、 逻 辑 型 、 复 数 型 ). R 可 以 很 
容易 地 生成 和 处 理 数组 ， 特 别 是 矩阵 (二 维 数 组 ). 

数组 有 一 个 特征 属性 叫做 维 数 向 量 (dim 属性 ), 维 数 向 量 是 一 个 元 素 取 正 整 
数值 的 向 量 ， 其 长 度 是 数组 的 维 数 ， 比 如 维 数 向 量 有 两 个 元 素 时 数组 为 二 维 数组 
(矩阵 ). 维 数 向 量 的 每 一 个 元 素 指定 了 该 下 标的 上 界 ， 下 标的 下 界 总 为 1. 

1. 将 向 量 定义 成 数组 

向 量 只 有 和 定义 了 维 数 向 量 (dim 属性 ) 后 才能 被 看 作 是 数组 ， 比 如 : 

> z<-1:12 


> dim(z)<-c(3,4) 
>z 








[,1] [,2] [,3] [,4] 
[1,] 1 4 7 10 
[2,] 2 5 8 11 
[3,] 3 6 9 12 
注意 : 矩阵 的 元 素 是 按 列 存放 的 ， 也 可 以 把 向 量 定义 为 一 维 数组 ， 例 如 : 
> dim(z)<-12 
>z 
[1] 1 2 3 4 5 6 7 8 9101112 
2. 用 array() 函数 构造 多 维 数组 
R 软件 可 以 用 array() 函数 直接 构造 数组 ， 其 构造 形式 为 
array(data = NA, dim = length(data), dimnames = NULL) 
其 中 data 是 一 个 向 量 数据 ， dim 是 数组 各 维 的 长 度 ， 缺 省 时 为 原 癌 量 的 长 度 . 
dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 ， 如 
> X <- array(1:20,dim=c(4,5)) 
产生 一 个 4x5 的 二 维 数组 (矩阵 ), 即 


2.5 多 维 数组 和 逢 阵 83 


> 又 
[,1] [,2] [,3] [,4] [,5] 
[1,] 1 5 9 13 17 


[2,] 2 6 10 14 18 

[3,] 3 7 11 15 19 

[4,] 4 8 12 16 20 
男 一 种 方式 为 


> Z <- array(0,dim=c(3, 4, 2)) 


它 定 义 了 一 个 3x 4x2 的 三 维 数组 ,其 元 素 均 为 0. 这 种 方法 常用 来 对 数组 作 初 
始 化 . 


3. 用 matrix() 函数 构造 矩阵 
函数 matrix() 是 构造 矩阵 (二 维 数组 ) 的 函数 ， 其 构造 形式 为 


matrix(data=NA, nrow=1, ncol=1, byrow=FALSE, dimnames=NULL) 
其 中 data 是 一 个 向 量 数据 ， nrow 是 矩阵 的 行 数 ， ncol 是 矩阵 的 列 数 ， 当 
byrow=TRUE 时 ， 生 成 矩阵 的 数据 按 行 放置 ， 缺 省 时 相当 于 byrow=FALSE, 数据 按 
列 放置 dimnames 是 数组 维 的 名 字 ， 缺 省 时 为 空 . 

如 构造 一 个 3 x 5 阶 的 矩阵 








> A<-matrix(1:15, nrow=3,ncol=5,byrow=TRUE) 
> 人 
[,1] [,2] [,3] [,4] [,5] 
[1,] 1 2 3 4 5 
[2,] 6 水 8 9 10 
[3,] 11 12 13 14 15 
注意 ， 下 面 两 种 格式 与 前 面 的 格式 是 等 价 的 . 
> A<-matrix(1:15, nrow=3,byrow=TRUE) 
> A<-matrix(1:15, ncol=5,byrow=TRUE) 
如 果 将 语句 中 的 byrow=TRUE 去 掉 ， 则 数据 按 列 放 置 . 


2.5.2 ”数组 下 标 
数组 与 向 量 一 样 ， 可 以 对 数组 中 的 某 些 元 素 进行 访问 ， 或 进行 运算 . 
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1. 数组 下 标 
要 访问 数组 的 某 个 元 素 , 只 要 写 出 数组 名 和 方 插 号 内 的 用 逗号 分 开 的 下 标 即 
可 ,如 a[2，1，2]. 如 
> a <- 1:24 
> dim(a) <- c(2,3,4) 
> a[2,1，2] 
[1] 8 


更 进一步 还 可 以 在 每 一 个 下 标 位 置 写 一 个 下 标 向 量 , 表示 这 一 维 取出 所 有 指 
定 下 标的 元 素 ， 如 a[1，2:3，2:3] 取出 所 有 第 一 下 标 为 1, 第 二 下 标 为 2 或 3， 
第 三 下 标 为 2 或 3 的 元 素 . 如 
> a[1，2:3，2:3] 
[,1] [,2] 
[1,] 9 15 
[2,1. -1 “17 
注意 ， 因 为 第 一 维 只 有 一 个 下 标 ， 所 以 退化 了 ， 得 到 的 是 一 个 维 数 向 量 为 2 x 2 
的 数组 . 
另外 ， 如 果 略 写 某 一 维 的 下 标 ， 则 表示 该 维 全 选 ， 例 如 ， 
> a[1，，] 
[,1] [,2] [,3] [,4] 
[1,] 1 7 13 19 
[2,] 3 9 15 21 
[3,] 5 11 17 23 
取出 所 有 第 一 下 标 为 1 的 元 素 ， 得 到 一 个 形状 为 3 x 4 的 数组 . 
SE cs | 
[,1] [,2] [,3] [,4] 
[1,] 3 9 15 21 
[2,] 4 10 16 22 


取出 所 有 第 二 下 标 为 2 的 元 素 得 到 一 个 2 x 4 的 数组 . 
> a[1i,1, ] 
[1] 1 7 13 19 
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则 只 能 得 到 一 个 长 度 为 4 的 向 量 ， 不 再 是 数组 . a[ ，，] 或 a[] 都 表示 整个 
数组 .比如 
> a [<-0 
可 以 在 不 改变 数组 维 数 的 条 件 下 把 元 素 都 赋 成 0. 


还 有 一 种 特殊 下 标 办 法 是 对 于 数组 只 用 一 个 下 标 向 量 (是 向 量 ， 不 是 数组 )， 
比如 























> a[3:10] 
[1] 3 4 5 6 7 8 910 


这 时 忽略 数组 的 维 数 信息 把 表达 式 看 作 是 对 数组 的 数据 癌 量 取 子 集 . 
2. 不 规则 的 数组 下 标 


在 RR 语言 中 , 甚至 可 以 把 数组 中 的 任意 位 置 的 元 素 作 为 数组 访问 , 其 方法 是 
用 一 个 二 维 数组 作为 数组 的 下 标 ， 二 维 数组 的 每 一 行 是 一 个 元 素 的 下 标 ， 列 数 为 
数组 的 维 数 . 例如 , 要 把 上 面 的 形状 为 2x3x4 的 数组 a 的 第 [1,1,1 [2,2,3]， 
[1,3,4]，[2,1,4] 号 共 四 个 元 素 作为 一 个 整体 访问 ， 先 定义 一 个 包含 这 些 下 标 
作为 行 的 二 维 数组 ， 


> b <- matrix(c(1,1,1,2,2,3,1,3,4,2,1,4), ncol=3, byrow=T) 





> b 

[,1] [,2] [,3] 
[1,] 1 1 1 
[2,] 2 2 3 
[3,] | 3 4 
[4,] 2 1 4 
> a[b] 


[1] 1 16 23 20 
注意 取出 的 是 一 个 向 量 . 我 们 还 可 以 对 这 儿 个 元 素 赋值 ， 如 : 
> a[b] <- c(101,102,103,104) 
或 


> a[lb] <- 0 


86 第 二 章 R 软件 的 使 用 


2.5.3 ”数组 的 四 则 运算 


可 以 对 数组 之 间 进 行 四 则 运算 (十 、 一 、* 、/), 这 时 进行 的 是 数组 对 应 元 
素 的 四 则 运算 ， 参 加 运算 的 数组 一 般 应 该 是 相同 形状 的 (dim 属性 完全 相同 ). 例 
如 ， 
> A <- matrix(1:6, nrow=2, byrow=T); A 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 4 5 6 
> B <- matrix(1:6, nrow=2); B 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> C <- matrix(c(1,2,2,3,3,4), nrow=2); C 
[,1] [,2] [,3] 
[1,] 1 2 3 
[2,] 2 3 4 
> D <- 2*C+A/B; D 
[,1] [,2] [,3] 
[1,] 3 4.666667 6.6 
[2,] 6 7.250000 9.0 
从 这 个 例子 可 以 看 到 ,数组 的 加 、 减 法 运算 和 数 乘 运 算 满足 原 矩 阵 运 算 的 性 
质 ， 但 数组 的 乘 、 除 法 运算 实际 上 是 数组 中 对 应 位 置 的 元 素 作 运算 . 
形状 不 一 致 的 向 量 (或 数组 ) 也 可 以 进行 四 则 运算 ， 一 般 的 规则 是 将 向 量 (或 
数组 ) 中 的 数据 与 对 应 向 量 (或 数组 ) 中 的 数据 进行 运算 ， 把 短 向 量 (或 数组 ) 的 
数据 循环 使 用 ， 从 而 可 以 与 长 向 量 (或 数组 ) 数据 进行 匹配 ， 并 尽 可 能 保留 共同 
的 数组 属性 ， 例 如， 
> xl <- c(100,200) 
> x2 <- 1:6 
> XT+X2 
[1] 101 202 103 204 105 206 


> x3 <- matrix(1:6, nrow=3) 
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> xl+x3 

[,1] [,2] 
[1,] 101 204 
[2,] 202 105 
[3,] 103 206 


可 以 看 到 ， 当 向 量 与 数组 共同 运算 时 ， 向 量 按 列 匹配 。 当 两 个 数组 不 匹配 时 ， 





会 提出 警告 ， 如 
> x2 <- 1:5 
> X1+X2 
[1] 101 202 103 204 105 
警告 信息 : 


长 的 目标 对 象 长 度 不 是 短 的 目标 对 象 长 度 的 整 倍数 in: xl + x2 
2.5.4 ”矩阵 的 运算 
这 里 简单 地 介绍 R 软件 中 矩阵 的 基本 运算 . 
1. 转 置 运算 
对 于 矩阵 4, 函数 t (A) 表示 秆 了 泗 4 的 转 置 ， 即 4 如 


> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 

[1,] 1 3 5 

[2,] 2 4 6 

> t(A) 
[,1] [,2] 

[1,] 1 2 

[2,] 3 4 

[3,] 5 6 


2. 求 方 阵 的 行列 式 
函数 det () 是 求 方 阵 行列 式 的 值 ， 如 


> det(matrix(1:4, ncol=2)) 
[1] -2 
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3. 向 量 的 内 积 


对 于 n 维 向 量 x, 可 以 看 成 n x 1 阶 逢 阵 或 1 x n 阶 和 矩阵 . 若 z 与 /是 相同 
维 数 的 向 量 ， 则 x %*% y 表 示 z 与 y 作 内 积 . 例如 ， 
> x <- 1:5; y <- 2*1:5 


> x h*% 了 
[,1] 
[1,] 110 





函数 crossprod() 是 内 积 运算 函数 (表示 交叉 乘积 )，crossprod(x,y) 计算 
向 量 z 与 y 的 内 积 ， 即 *t(x) %*% y’”. crossprod(x) 表 示 7x 与 + 的 内 积 , 即 ||z||2. 

类 似 地 ， tcrossprod(x,y) 表示 x %*% t(y)，， 即 x 与 y 的 外 积 ,也 称 为 义 
况 . tcrossprod(x) 表示 7 与 x 作 外 积 . 


4. 向 量 的 外 积 〈 又 积 ) 


设 x,y 是 即 维 向 量 ， 则 x %o% y 表 示 z 与 y 作 外 积 . 例如 ， 
> X<- 1:5; y <- 2*1:5 
> x ho% y 
[,1] [,2] [,3] [,4] [,5] 
[1,] 2 4 6 8 10 
[2,] 4 8 12 16 20 
[3,] 6 12 18 24 30 
[4,] 8 16 24 32 40 
[5,] 10 20 30 40 50 
函数 outer() 是 外 积 运算 函数 ， outer(x,y) 计算 向 量 z 与 y 的 外 积 ， 它 
等 价 于 x %o% y. 
函数 outer() 的 一 般 调用 格式 为 


outer(X, Y, fun = "*", ...) 


其 中 X，Y 矩阵 (或 向 量 )，fun 是 作 外 积 运算 函数 ， 缺 省 值 为 乘法 运算 ， 函 数 
outer() 在 绘制 三 维 曲 面 时 非常 有 用 ， 它 可 生成 一 个 X 和 Y 的 网 格 ， 关 于 它 在 
绘制 三 维 曲面 的 用 法 将 在 第 三 章 3.3.1 节 中 讲 到 . 


5. 和 矩阵 的 乘法 
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如 果 和 矩阵 4 和 B 具有 相同 的 维 数 ， 则 A * B 表示 和 矩阵 中 对 应 的 元 素 的 乘 
站，A % * % B 表示 通常 意义 下 的 两 个 矩阵 的 乘积 (当然 要 求 盾 阵 4 的 列 数 等 
于 矩阵 B 的 行 数 ). 如 

> A <- array(1:9,dim=(c(3,3))) 
> B <- array(9:1,dim=(c(3,3))) 
>C<-A*B;C 
[,1] [,2] [,3] 
[1,] 9 24 21 
[2,] 16 25 16 
[3,] 21 24 9 
>D <- AA“*% B; D 
[,1] [,2] [,3] 
[1,] 90 54 18 
[2,] 114 69 24 
[3,] 138 84 30 
由 乘法 的 运算 规则 可 以 看 出 ， x %* % A %* % x 表示 的 是 二 次 型 . 
函数 crossprod(A,B) 表示 的 是 t(A) % * % B, 子 数 tcrossprod(A,B) 表 
示 的 是 A % * % t(B). 


6. 生成 对 角 阵 和 矩阵 取 对 角 运 算 


函数 diag() 依赖 于 它 的 变量 ， 当 v 是 一 个 向 量 时 ， diag(v) 表示 以 v 的 
元 素 为 对 角 线 元 素 的 对 角 阵 . 当 M 是 一 个 矩阵 时 ， 则 diag(M) 表示 的 是 取 M 对 
角 线 上 的 元 素 的 向 量 .， 如 
> v<-c(1,4,5) 
> diag(v) 
[,1] [,2] [,3] 
[1,] 1 0 0 
[2,] 0 4 0 
[3,] 0 0 5 
> M<-array(1:9,dim=c (3,3)) 
> diag(M) 
[1] 1 5 9 
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7. 解 线性 方程 组 和 求 矩 阵 的 逆 和 矩阵 


者 求解 线性 方程 组 Ax = 由 其 命令 形式 为 solve (A,b), 求 窍 阵 4 的 道 ， 其 
命令 形式 为 solve (A). 设 和 矩阵 


1 2 3 1 
A=|45 6 |,， b=|1 
7 8 10 1 


则 解 方程 组 4z = 的 解 x 和 求 算 阵 4 的 逆 和 矩阵 B 的 命令 如 下 
> A <- t(array(c(1:8, 10),dim=c(3,3))) 
>b <-c(1,1,1) 
> x <- solve(A,b); x 
[1] -1.000000e+00 1.000000e+00 -4.728549e-16 
> B <- solve(A); B 
[,1] [,2] [,3] 
[1,] -0.6666667 -1.333333 1 
[2,] -0.6666667 3.666667 -2 
[3,] 1.0000000 -2.000000 J 


8. 求 矩 阵 的 特征 值 与 特征 向 量 
函数 eigen(Sm) 是 求 对 称 怎 阵 Sm 的 特征 值 与 特征 向 量 ， 其 命令 形式 为 
> ev <- eigen(Sm) 


则 ev 存放 着 对 称 和 矩阵 Sm 特征 值 和 特征 向 量 ， 是 由 列表 形式 给 出 的 ( 有 关 列 表 
的 概念 见 2.6 节 ), 其 中 ev$values 是 Sm 的 特征 值 构成 的 向 量 ，ev$vectors 是 
Sm 的 特征 向 量 构成 的 秆 阵 ， 如 


> Sm<-crossprod(A,A) 








> ev<-eigen(Sm); ev 
$values 
[1] 303.19533618 0.76590739 0.03875643 
$vectors 

[,1] [,2] [,3] 
[1,] -0.4646675 0.833286355 0.2995295 
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[2,] -0.5537546 -0.009499485 -0.8326258 
[3,] -0.6909703 -0.552759994 0.4658502 


9. 矩阵 的 奇异 值 分 解 


函数 svd(A) 是 对 矩阵 4 作 奇 异 值 分 解 ， 即 4 = UDV™, 其 中 U,V 是 正 
交 阵 ，D 为 对 角 阵 ， 也 就 是 矩阵 4 的 奇异 值 。 sva(A) 的 返回 值 也 是 列表 ， 
svd(A)$d 表示 和 矩阵 4 的 奇异 值 ， 即 矩阵 D 的 对 角 线 上 的 元 素 . ”svd(A)$u 对 
应 的 是 正 交 阵 U, sva(A)$v 对 应 的 是 正 交 阵 V. 例如 ， 


> svdA<-svd(A); 
$d 
[1] 17.4125052 
$u 

[,1] 
[1,] -0.2093373 
[2,] -0.5038485 
[3,] -0.8380421 
$v 

[,1] 
[1,] -0.4646675 
[2,] -0.5537546 
[3,] -0.6909703 
> attach(svdA) 


svdA 


0.8751614 0.1968665 


[,2] [,3] 
0.96438514 0.1616762 
0.03532145 -0.8630696 

-0.26213299 0.4785099 


[,2] [,3] 
-0.833286355 0.2995295 
0.009499485 -0.8326258 
0.552759994 0.4658502 


> u %*% diag(d) %*% 七 (V) 
[,1] [,2] [,3] 

[1,] 1 2 3 

[2,] 4 2 6 

[3,] 7 8 10 


在 上 面 的 语句 中 ， attach(svdA) 是 说 明 下 面 的 变量 u，v，d 是 附属 于 svdA 
的 ， 关 于 attach() 函数 的 使 用 方法 将 在 2.6.2 节 作 详细 介绍 . 


10. 求 矩 阵 的 行列 式 的 值 


函数 det (A) 是 求 算 阵 4 的 行列 式 值 。 如 
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> det (A) 
[1] -3 


11. 最 小 拟 合 与 QR 分解 


函数 1sfit() 的 返回 值 是 最 小 二 乘 拟 合 的 结果 ， 命 令 
> lsfit.sol <- lsfit(X, y) 
给 出 最 小 二 乘 拟 合 结果 ， 其 中 y 是 观测 向 量 ， X 是 设计 和 窍 阵 ， 例 如 


0.0 0.2 0.4 0.6 0.8 





0.9 1.9 2.8 3.3 4.2 


作 线 性 最 小 二 乘 拟 合 ， 其 命令 如 下 : 
> x<-c(0.0, 0.2, 0.4, 0.6，0.8) 
> y<-c(0.9, 1.9, 2.8, 3.3, 4.2) 
> lsfit.sol <- lsfit(x, y) 
得 到 的 计算 结果 是 列表 形式 (关于 列表 的 概念 将 在 2.6 节 讨 论 ) 
> lsfit.sol 
$coefficients 
Intercept X 

1.02 4.00 
$residuals 
[1] -0.12 0.08 0.18 -0.12 -0.02 
$intercept 
[1] TRUE 
$qr 
$qt 
[1] -5.85849810 2.52982213 0.23749843 -0.02946714 0.10356728 
$qr 

Intercept X 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
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[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$qraux 

[1] 1.447214 1.120788 
$rank 

[1] 2 

$pivot 

[1] 1 2 

$tol 

[1] 1e-07 

attr(,'"class'") 


[1] "qr" 


其 中 $coefficients 是 拟 合 系数 ，$residuals 是 拟 合 残 差 ， 其 他 参数 我 们 先 不 
作 解 释 ， 大 家 可 看 在 线 帮助 . 


与 1sfit() 函数 有 密切 关系 的 函数 是 1s .diag(, 它 给 出 拟 合 的 进一步 的 统 
计 信 息 . 

另 一 个 最 小 二 乘 拟 全 有 密切 关系 的 函数 是 QR 分 解 函数 qr(), 和 它 的 同类 
函数 ， 有 如 下 函数 qr() ，qr.coef()，qr.fitted() 和 qr.resid(). 为 了 进 一 
步 理解 这 些 命 令 ， 还 看 上 面 的 例子 

> X<-matrix(c(rep(1,5), x), ncol=2) 
> Xplus <- qr(X); Xplus 
$qr 

[,1] [,2] 
[1,] -2.2360680 -0.8944272 
[2,] 0.4472136 0.6324555 
[3,] 0.4472136 -0.1954395 
[4,] 0.4472136 -0.5116673 
[5,] 0.4472136 -0.8278950 
$rank 
[1] 2 


$qraux 
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[1] 1.447214 1.120788 
$pivot 
[1] 1 2 
attr(,'"class'") 
[1] "qr" 
QR 分 解 函 数 qrO 输入 的 设计 矩阵 需要 加 以 1 为 元 素 的 列 ， 其 返回 值 是 列表 ， 
其 中 $qr 矩阵 的 上 三 角 阵 是 QR 分 解 中 得 到 的 R 和 矩阵， 下 三 角 阵 是 QR 分 解 得 
到 的 正 交 阵 Q 的 部 分 信息 ， $qraux 是 Q 的 附加 信息 . 注意 ， 这 两 个 参数 的 结 
果 与 函数 1sfit() 得 到 的 结果 是 相同 的 . 
可 用 QR 分 解 得 到 的 结果 计算 最 小 二 乘 的 系数 
> b <- dr.coef(Xplus，y); b 
[1] 1.02 4.00 
得 到 的 系数 与 函数 1sfit() 也 是 相同 的 ， 但 为 什么 用 这 种 方法 计算 呢 ? 这 是 因 
为 用 QR 分 解 在 计算 最 小 二 乘 拟 合 时 ， 其 计算 误差 比 一 般 方法 要 小 . 
类 似 地 ， 可 以 通过 QR 分 解 得 到 最 小 二 乘 的 拟 合 值 和 残 差 值 . 
> fit <- qr.fitted(Xplus, y); fit 
[1] 1.02 1.82 2.62 3.42 4.22 
> res <- gr.resid(Xplus, y); res 
[1] -0.12 0.08 0.18 -0.12 -0.02 


2.5.5 ”与 矩阵 (数组 ) 运算 有 关 的 函数 


1. 取 矩 阵 的 维 数 


函数 dim(A) 得 到 甜 阵 4 的 维 数 ， 函 数 nrow(A) 得 到 矩阵 4 的 行 数 ， 函 数 
ncol(A) 得 到 矩阵 4 的 列 数 .如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> dim(A) 
[1] 2 3 
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> nrow(A) 
[1] 2 
> ncol(A) 
[1] 3 


2. 和 矩阵 的 合并 
函数 cpind() 把 其 自 变 量 横 癌 拼 成 一 个 大 矩阵 ， 
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rbind() 把 其 自 变 量 纵向 





拼 成 一 个 大 矩阵 . cbind() 的 自 变 量 是 害 阵 或 看 作 列 向 量 的 向 量 时 ， 自 变量 的 
高 度 应 该 相等 ， rbind() 的 自 变量 是 矩阵 或 看 作 行 癌 量 的 向 量 时 ， 自 变量 的 宽 
度 应 该 相等 ， 如 果 参 与 合并 的 自 变 量 比 其 变量 短 ， 则 循环 补足 后 合并 .如 





> xl <- rbind(c(1,2), c(3,4)); X1 
[,1] [,2] 

[1,] 1 2 

[2,] 3 4 

> x2 <- 10+xl1 

> x3 <- cbind(x1, x2); x3 
[,1] [,2] [,3] [,4] 

[1,] 1 2 11 12 

[2,] 3 4 13 14 

> x4 <- rbind(x1, x2); x4 
[,1] [,2] 

[1,] 1 2 

[2,] 3 4 

[3,] 11 12 

[4,] 13 14 

> cbind(1, x1) 
[,1] [,2] [,3] 

[1,] 1 1 2 

[2,] 1 3 4 


3. 矩阵 的 拉 直 











设 4 是 一 个 矩阵 ， 则 函数 as .vector(A) 就 可 以 将 矩阵 转化 为 回 量 .如 
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> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 

[1,] 1 3 5 

[2,] 2 4 6 

> as.vector(A) 


[1] 123456 


4. 数组 的 维 名 字 
数组 可 以 有 一 个 属性 dimnames 保存 各 维 的 各 个 下 标的 名 字 , 缺 省 时 为 NULL. 


> X <- matrix(1:6, ncol=2, 
dimnames=list(c("one'",'"two'",'"three"), c('"First'","Second")), 
byrow=T); X 


First Second 


one 1 2 
two 3 4 
three 5 6 


也 可 以 先 定义 窍 阵 X 然后 再 为 dimnames(X) 赋值， 例如 ， 


> X<-matrix(1:6, ncol=2, byrow=T) 
> dimnames(X) <- list( 


c("one", "two'", "three"), c("First", "Second'")) 


对 于 矩阵， 还 可 以 使 用 属性 rownames 和 colnames 来 访问 行 名 与 列 名 . 例如 ， 


> X<-matrix(1:6, ncol=2, byrow=T) 
> colnames(X) <- c('"First", "Second') 


> rownames(X) <- c('"one", "two", "three'") 


5. 数组 的 广义 转 置 
可 以 用 aperm(A，perm) 函数 把 数组 A 的 各 维 按 perm 中 指定 的 新 次 序 重 新 


排列 ， 例 如 ， 


> A<-array(1:24, dim = c(2,3,4)) 
> B<-aperm(A, c(2,3,1)) 
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结果 B 把 A 的 第 2 维 移 到 了 第 1 维 ，4 的 第 3 维 移 到 了 第 2 维 ，A 的 第 1 维 移 
到 了 第 三 维 . 这 时 有 B[i,j,k]=A[j,k,i]. 
对 于 矩阵 A, aperm(A，c(2,1)) 恰好 是 矩阵 转 置 ， 即 t (A). 


6.apply 函数 
对 于 向 量 ， 可 以 用 sum 、mean 等 函数 对 其 进行 计算 . 对 于 数组 (矩阵 ) 如 
果 想 对 其 一 维 (或 耕 干 维 ) 进行 某 种 计算 ， 可 用 apply 函数 ， 其 一 般 形式 为 
apply (A, MARGIN, FUN, ...) 
其 中 A 为 一 个 数组 ， MARGIN 是 固定 哪些 维 不 变 ， FUN 是 用 来 计算 的 函数 .如 
> A<-matrix(1:6,nrow=2); A 
[,1] [,2] [,3] 
[1,] 1 3 5 
[2,] 2 4 6 
> apply(A,1,sum) 
[1] 9 12 
> apply(A,2,mean) 
[1] 1.5 3.5 5.5 


2.6 ”列表 与 数据 框 
2.6.1 ”列表 (list) 


1. 列表 的 构造 
列表 是 一 种 特别 的 对 象 集合 ， 它 的 元 素 也 由 序号 (下 标 ) 区 分 ， 但 是 各 元 素 
的 类 型 可 以 是 任意 对 象 ， 不同 元 素 不 必 是 同一 类 型 . 元 素 本 身 允 许 是 其 它 复 杂 数 
据 类 型 ， 比 如 ， 列 表 的 一 个 元 素 也 允许 是 列表 下面 是 如 何 构造 列表 的 例子 . 
> Lst <- list(name="Fred", wife="Mary", no.children=3, 


child.ages=c(4,7,9)) 














> Lst 
$name 


[1] "Fred" 
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$wife 

[1] "Mary" 
$no.children 
[1] 3 
$child.ages 
[1] 4 7 9 


列表 元 素 总 可 以 用 “列表 名 [[ 下 标 ]]” 的 格式 引用 . 例如， 

> Lst[[2]] 

[1] "Mary" 

> Lst[[4]] [2] 

[1] 7 
但 是 ， 列 表 不 同 于 向 量 ， 我 们 每 次 只 能 引用 一 个 元 素 ， 如 Lst[[1:2]] 的 用 法 是 
不 允许 的 

注意 ， “列表 名 [下 标 ] ”或 “列表 名 [ 下 标 范 围 ] ”的 用 法 也 是 合法 的 ， 
但 其 意义 与 用 两 重 括号 的 记 法 完全 不 同 ,两 重 记号 取出 列表 的 一 个 元 素 ,结果 与 
该 元 素 类 型 相同 ， 如 有 果 使 用 一 重 括 号 ， 则 结果 是 列表 的 一 个 子 列表 (结果 类 型 仍 
为 列表 ). 

在 定义 列表 时 如 果 指 定 了 元 素 的 名 字 (如 Lst 中 的 name, wife, no.children， 
child.ages), 则 引用 列表 元 素 还 可 以 用 它 的 名 字 作 为 下 标 ， 格 式 为 “列表 名 [[" 
元 素 名 "]]”, 如 

> Lst[["name"]] 

[1] "Fred" 

> Lst[["child.age"]] 
[1] 47 9 


另 一 种 格式 是 “列表 名 $ 元 素 名 ”, 如 
> Lst$name 
[1] "Fred" 
> Lst$wife 
[1] "Mary" 
> Lst$child.ages 
[1] 47 9 
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构造 列表 的 一 般 格 式 为 


Lst <- list(name_1=object_1, ..., name_m=object_m) 
其 中 name 是 列表 元 素 的 名 称 ， object 是 列表 元 素 的 对 象 . 
2. 列表 的 修改 


列表 的 元 素 可 以 修改 ， 只 要 把 元 素 引 用 赋值 即 可 ， 如 将 Fred 改 成 John. 
> Lst$name <- "John'" 
如 果 需 要 增加 一 项 家 庭 收入 ， 夫 妻 的 收入 分 别 是 1980 和 1600, 则 输入 
> Lst$income <- c(1980, 1600) 
如 果 要 删除 列表 的 茶 一 项 ， 则 将 该 项 赋 空 值 (NULL). 
儿 个 列表 可 以 用 连接 函数 c() 连接 起 来 , 结果 仍 为 一 个 列表 ,其 元 素 为 各 自 
变量 的 列表 元 素 ， 如 
>list.ABC <- c(list.A, list.B, list.C) 


3. 返回 值 为 列表 的 函数 

在 R 中 , 有 许多 函数 的 返回 值 是 列表 , 如 求 特征 值 特 征 向 量 的 函数 eigen()， 
奇异 值 分 解 函数 svd() 和 最 小 二 乘 函 数 数 1sfit() 等 ， 这 里 不 再 一 一 讨论 ,在 
用 到 时 再 讨论 相关 函数 的 意义 . 


2.6.2 ”数据 框 (data.frame) 


数据 框 是 R 的 一 种 数据 结构 它 通 常 是 惩 阵 形式 的 数据 ， 但 矩阵 各 列 可 以 
是 不 同类 型 的 ， 数据 框 每 列 是 一 个 变量 ， 每 行 是 一 个 观测 . 

但 是 , 数据 框 有 更 一 般 的 定义 . 它 是 一 种 特殊 的 列表 对 象 , 有 一 个 值 为 “data 
.frame ”的 class 属性 ， 各 列表 成 员 必须 是 向 量 (数值 型 、 字 符 型 、 人 逻辑 型 ) 、 
子 、 数 值 型 和 着、 列表 ,或 其 它 数 据 框 . 向 量 、 因 子 成 员 为 数据 框 提供 一 个 变量 ， 
如 果 回 量 非 数 值 型 会 被 强制 转换 为 因子 ， 而 和 矩阵、 列表 、 数 据 框 这 样 的 成 员 为 新 
数据 框 提供 了 和 其 列 数 、 成 员 数 、 变 量 数 相同 个 数 的 变量 .作为 数据 框 变量 的 向 
量 、 因 子 或 矩阵 必须 具有 相同 的 长 度 ( 行 数 ). 

尽管 如 此 , 一 般 还 是 可 以 把 数据 框 看 作 是 一 种 推广 了 的 矩阵 ， 它 可 以 用 和 矩阵 
形式 显示 ， 可 以 用 对 矩阵 的 下 标 引 用 方法 来 引用 其 元 素 或 子 集 . 


1. 数据 框 的 生成 
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数据 框 可 以 用 data.frame() 函数 生成 ， 其 用 法 与 list() 函数 相同 ， 各 自 
变量 变 成 数据 框 的 成 分 ， 自 变量 可 以 命名 ， 成 为 变量 名 .例如 
> df<-data.frame( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=c("F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); df 
Name Sex Age Height Weight 
1 Alice F 13 56.5 84.0 
2 Becka F 13 65.3 98.0 
3 James M 12 57.3 83.0 
4 Jeffrey M 13 62.5 84.0 
5 John M 12 59.0 99.5 


如 果 一 个 列表 的 各 个 成 分 满足 数据 框 成 分 的 要 求 ， 它 可 以 用 as.data.frame() 
函数 强制 转换 为 数据 框 ， 比 如 ， 


> Lst<-list( 
Name=c("Alice", "Becka", "James", "Jeffrey", "John'"), 
Sex=c("F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
); Lst 
$Name 
[1] "Alice" "Becka" "James" "Jeffrey" "John" 
$Sex 
[1] "FF" "FF" "M" "M" "M" 
$Age 
[1] 13 13 12 13 12 
$Height 
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[1] 56.5 65.3 57.3 62.5 59.0 
$Weight 
[1] 84.0 98.0 83.0 84.0 99.5 
则 as.data.frame(Lst) 是 与 df 相同 的 数据 框 . 
一 个 矩阵 可 以 用 data.frame() 转换 为 一 个 数据 框 ， 如果 它 原来 有 列 名 则 其 
列 名 被 作为 数据 框 的 变量 名 ， 否则 系统 自动 为 矩阵 的 各 列 起 一 个 变量 名 ,如 
> X <- array(1:6, c(2,3)) 
> data.frame(X) 
X1 X2 X3 
5 
2 2 4 6 





2. 数据 框 的 引用 


引用 数据 框 元 素 的 方法 与 引用 和 矩阵 元 素 的 方法 相同 ,可 以 使 用 下 标 或 下 标 向 
量 ， 也 可 以 使 用 名 字 或 名 字 向 量 . 如 
> df [1:2，3:5] 
Age Height Weight 
1 13 56.5 84 
2 13 65.3 98 


数据 框 的 各 变量 也 可 以 用 按 列 表 引 用 ( 即 用 双 括 号 [[ ]] 或 $ 符号 引用 ). 如 

> df[["Height"]] 

[1] 56.5 65.3 57.3 62.5 59.0 

> df$Weight 

[1] 84.0 98.0 83.0 84.0 99.5 
数据 框 的 变量 名 由 属性 names 定义 , 此 属性 一 定 是 非 空 的 . 数据 框 的 各 行 也 可 以 
定义 名 字 ， 可 以 用 rownames 属性 定义 .如 


> names (df) 














[1] "Name'" Sex' "Age" "Height" "Weight" 
> rownames (df)<-c("one", "two", "three", "four", "five'") 
> df 


Name Sex Age Height Weight 
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13 56.5 84.0 
13 65.3 98.0 
57.3 83.0 
13 62.5 84.0 
12 59.0 99.5 


one Alice 
two Becka 
three James 


four Jeffrey 


三 三 屋 品 可 
一 
D 


five John 


3. attach() 函数 
数据 框 的 主要 用 途 是 保存 统计 建 模 的 数据 。 BR 的 统计 建 模 功能 都 需要 以 数 
据 框 为 输入 数据 . 我 们 也 可 以 把 数据 框 当成 一 种 矩阵 来 处 理 . 在 使 用 数据 框 的 变 
量 时 可 以 用 “数据 框 名 $ 变量 名 ”的 记 法 . 但 是 ， 这 样 使 用 较 麻 烦 ， R 提供 了 
attach() 函数 可 以 把 数据 框 中 的 变量 “连接 ” 到 内 存 中 , 这 样 便于 数据 框 数据 的 
调用 ， 例 如 ， 
> attach(df) 
> r <- Height/Weight; r 
[1] 0.6726190 0.6663265 0.6903614 0.7440476 0.5929648 
后 一 语句 将 在 当前 工作 空间 建立 一 个 新 变量 r, 它 不 会 自动 进入 数据 框 df 中 ， 
要 把 新 变量 赋值 到 数据 框 中 ， 可 以 用 
> df$r <- Height/Weight 
为 了 取消 连接 ， 只 要 调用 detach() (无 参数 即 可 ). 
注意 : R 中 名 字 空 间 的 管理 是 比较 独特 的 . 它 在 运行 时 保持 一 个 变量 搜索 
路 径 表 ,在 读 取 茶 个 变量 时 到 这 个 变量 搜索 路 径 表 中 由 前 向 后 查找 ,找到 最 前 的 
一 个 ; 在 赋值 时 总 是 在 位 置 1 赋值 (除非 特别 指定 在 其 它 位 置 赋 值 ). attach() 的 
缺 省 位 置 是 在 变量 搜索 路 径 表 的 位 置 2, detach() 缺 省 也 是 去 掉 位 置 2. 所 以 ， 
R 编程 的 一 个 常见 问题 是 当 你 误 用 了 一 个 自己 并 没有 赋值 的 变量 时 有 可 能 不 出 
错 ， 因 为 这 个 变量 已 在 搜索 路 径 中 某 个 位 置 有 定义 ， 这 样 不 利于 程序 的 调试 ， 需 
要 留心 这 样 的 问题 . 
attach() 除了 可 以 连接 数据 框 ， 也 可 以 连接 列表 . 


2.6.3 ”列表 与 数据 框 的 编辑 


如 果 需 要 对 列表 或 数据 框 中 的 数据 进行 编辑 ， 也 可 调用 函数 edit () 进行 编 
辑 、 修 改 ， 其 命令 格式 为 
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> xnew <- edit(xold) 
其 中 xold 是 原 列表 或 数据 框图 ， xnew 是 修改 后 的 列表 或 数据 框 . 注意 ， 原 数 
据 xold 并 没有 改动 ， 改 动 的 数据 存放 在 xnew 中 . 
函数 edit() 也 可 以 对 向 量 ， 数 组 或 矩阵 类 型 的 数据 进行 修改 或 编辑 . 


2.7 读 、 写 数据 文件 


在 应 用 统计 学 中 ， 数 据 量 一 般 是 比较 大 的 ， 变 量 也 很 多 .如果 用 上 述 方法 来 
建立 数据 集 ， 是 不 可 取 的 . 上 述 方法 适用 于 少量 数据 、 少 量变 量 的 分 析 . 对 于 大 
量 数据 和 变量 ， 一 般 应 在 其 他 软件 中 输入 (或 数据 来 源 是 其 他 软件 的 输出 结果 )， 
再 读 到 R 中 处 理 . R 软件 有 多 种 读数 据 文件 的 方法 . 

另外 ， 所 有 的 计算 结果 也 不 应 只 在 屏幕 上 输出 ,应 当 保存 在 文件 中 ， 以 备 使 
用 . 

这 里 介绍 一 些 R 软件 读 、 写 数据 文件 的 方法 . 





2.7.1 ” 读 纯 文本 文件 
读 纯 文本 文件 有 两 个 函数 ， 一 个 是 read.table() 函数 ， 另 一 个 是 scan() 





函数 
1. read.table( ) 函数 


read.table() 函数 是 读 表 格 形式 的 文件 . 知 “ 住 宅 ” 数据 已 经 输入 一 个 纯 文 
本 文件 "houses.data" 中 ， 其 格式 如 下 : 
Price Floor Area Rooms Age Cent.heat 


01 52.00 111.0 830 5 6.2 no 


02 54.75 128.0 710 5 7.5 no 
03 57.50 101.0 1000 5 4.2 no 
04 57.50 131.0 690 6 8.8 no 
05 59.75 93.0 900 5 1.9 yes 


其 中 第 一 行为 变量 名 ， 第 一 列 为 记录 序号 . 
利用 read.table() 函数 可 读 入 数据 ， 如 


> rt <- read.table('"houses.data') 
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此 时 变量 rt 是 一 个 数据 框 ， 其 形式 与 纯 文本 文件 "houses .data" 格式 相同 .我 
们 对 它 进行 测试 ， 得 到 

> is.data.frame (rt) 

[1] TRUE 
如 果 数 据 文件 中 没有 第 一 列 记 录 序 号 ， 如 


Price Floor Area Rooms Age Cent.heat 


52.00 111.0 830 5 6 .2 no 


54.75 128.0 710 5 7.5 no 
57.50 101.0 1000 5 4.2 no 
57.50 131.0 690 6 8.8 no 
59.75 93.0 900 5 1.9 yes 
则 相应 的 命令 改 为 
> rt <- tfead.table("houses .dqata"，header=TRUE) 
在 rt 会 自动 加 上 记录 序号 . 
read.table() 的 使 用 格式 为 
read.table(file, header = FALSE, sep = "", quote = "\"’", 
dec = ".", row.names, col.names, as.is = FALSE， 
na.strings = "NA", colClasses = NA, nrows = -1, 


skip = 0, check.names = TRUE, 
fill = !Iblank.lines.skip, strip.white = FALSE, 
blank.lines.skip = TRUE, comment.char = "#") 
其 中 file 是 读 入 数据 的 文件 和 名. header=TRUE 表示 所 读数 据 的 第 一 行为 变量 
名 ;否则 ( 缺 省 值 ) 第 一 行 作为 数据 . sep 是 数据 分 隔 的 字符 ， 通 常用 空格 作为 
分 隔 符 . skip 表示 读数 据 时 跳 过 的 行 数 ， 其 他 参数 的 用 法 请 见 帮 助 . 
2. scan( ) 函数 
scan() 函数 可 以 直接 读 纯 文本 文件 数据 . 例如 ， 有 15 名 学 生 的 体重 数据 已 
经 输入 一 个 纯 文本 文件 "weight .data" 中 ， 其 格式 如 下 : 


75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 
66.6 64.0 57.0 69.0 56.9 50.0 72.0 


则 
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W <- Scan("weight.dqata'") 
将 文件 中 的 15 个 数据 读 入 ， 并 赋 给 向 量 w. 
假设 数据 中 有 不 同 的 属性 ， 如 下 面 
172.4 75.0 169.3 54.8 169.3 64.0 171.4 64.8 166.5 47.4 
171.4 62.2 168.2 66.9 165.1 52.0 168.8 62.2 167.8 65.0 
165.8 62.2 167.8 65.0 164.4 58.7 169.9 57.5 164.9 63.5 
是 100 名 学 生 的 身高 和 体重 的 数据 ， 放 在 纯 文 本 数据 文件 "h_w.data", 其 中 第 
1、3、5、7、9 列 是 身高 (cm), 第 2 、4、6、8 、10 列 是 体重 (kg), 则 
> inp <- scan("h_w.data", list(height=0, weight=0)) 
将 数据 读 入 ， 并 以 列表 的 方式 赋 给 变量 inp. 
> is.list(inp) 
[1] TRUE 
可 以 将 由 scan() 读 入 的 数据 存放 成 窍 阵 形 式 ， 如 果 将 “weight.data” 中 的 
体重 数据 放 在 一 个 3 行 5 列 的 矩阵 中 ， 而 且 数 据 按 行 放置 ， 其 命令 格式 为 
> X <- matrix(scan("weight.dqata"，0) ， 
nrow=3, ncol=5, byrow=TRUE) 
Read 15 items 
>X 
[,1] [,2] [,3] [,4] [,5] 
[1,] 75.0 64.0 47.4 66.9 62.2 
[2,] 62.2 58.7 63.5 66.6 64.0 
[3,] 57.0 69.0 56.9 50.0 72.0 
由 前 面 讲 到 的 函数 matrix() 的 用 法 ， 下 面 两 种 写法 是 等 价 的 ， 


> XxX <- matrix(scan("input.dat", 0), ncol=5, byrow=TRUE) 





> XxX <- matrix(scan("input.dat", 0), nrow=3, byrow=TRUE) 


也 可 以 用 scan() 函数 直接 从 屏幕 上 输 数据 。 如 
> x<-scan() 
1:13579 
6 : 
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Read 5 items 
>xX 


[1] 13579 
scan() 读 文 件 的 一 般 格式 为 


scan(file = "", what = double(0), nmax = -1, 
n= -1, sep = "",， 
quote = if(identical(sep, "\n")) "" else "i \"", 
dec = ".", skip = 0, nlines = 0, na.strings = "NA", 


flush = FALSE, fill = FALSE, strip.white = FALSE, 
quiet = FALSE, blank.lines.skip = TRUE, 
multi.line = TRUE, comment.char = "",， 
allowEscapes = TRUE) 
其 中 file 为 文件 名 .what 为 指定 一 个 列表 ， 则 列表 每 项 的 类 型 为 需要 读 取 的 
类 型 . skip 控制 可 以 跳 过 文件 的 开始 不 读 行 数 . sep 控制 可 以 指定 数据 间 的 
分 隔 符 ， 其 它 参 数 见 帮助 文件 . 
2.7.2 ” 读 其 它 格式 的 数据 文件 
R 软件 除了 可 以 读 纯 文本 文件 外 ， 还 可 以 读 其 他 统计 软件 格式 的 数据 ， 如 
Minitab 、 S-PLUS 、 SAS 、 SPSS 等 ， 要 读 入 其 他 格式 数据 库 ， 必 须 先 调 入 
"foreign" 模块 . 它 不 属于 R 的 内 在 模块 , 需要 在 使 用 前 调 入 . 调 入 的 方法 很 简 
便 ， 只 需 键入 命令 : 
> library (foreign) 
或 用 2.1.3 节 介 绍 的 载 入 程序 包 调 入 . 
1. 读 SPSS 、SAS 、S-PLUS 、 Stata 数据 文件 


已 知 数据 由 表 2.2 所 示 . 分 别 存 成 SPSS 数据 文件 ("educ_scores .sav") 、 
SAS 数据 文件 ("educ_scores .xpt") 、 S-PLUS 数据 文件 ("educ_scores") 和 
Stata 数据 文件 ("educ_scores .dta"). 

读 SPSS 文件 的 格式 是 : 

> rs <- read.spss("educ_scores.sav'") 


其 变量 rs 是 一 个 列表 ， 如 果 打 算 形成 数据 框 ， 则 命令 格式 为 
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表 2.2: 某 学 院 学 生 数 据 


Sex of 
Language | Analogical | Geometric student 
Aptiude | Reasoning | Reasoning | (Male =1) 

Student (zx1) (x2) (zx3) (za) 





于 0 器 人 台 口 OQ 器 


> rs<-read.spss("educ_scores.sav", to.data.frame=TRUE) 
读 SAS 文件 的 格式 是 : 
> rx <- read.xport("educ_scores.xpt") 
其 变量 rx 是 一 个 数据 框 . 
读 S-PLUs 文件 的 格式 是 : 
> rs <- read.S("educ_scores'") 
其 变量 rs 是 一 个 数据 框 . 
读 Stata 文件 的 格式 是 : 
> rd <- read.dta("educ_scores.dta") 
其 变量 rd 是 一 个 数据 框 . 
2. 读 Excel 数据 文件 
将 上 述 数 据 存 为 Excel 表 ("educ_scores.xls"), 但 R 软件 无 法 直接 读 Excel 
表 ， 需 要 将 Excel 表 进 入 转化 成 其 他 格式 ， 然 后 才能 被 R 软件 读 出 . 
第 一 种 转化 格式 是 将 Excel 表 转 化 成 “文本 文件 制 表 符 分 隔 ) ”文件 ， 如 图 
2.18 所 示 . 
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icrosoft Excel - educ_scores 另存 为 


悍 存 位 置 过) : [一 IlyWorkSpace 


轩 5 六 











次 件 名 (8): educ_scores 


保存 类 型 了 ) ，|E 吾 六 的 辐 忆 本 滞 















图 2.18: 将 Excel 表 存 为 文本 文件 


用 也 数 read.delim() 读 该 文本 文件 ， 即 


> rd <- read.delim("educ_scores.txt") 
得 到 的 变量 rd 是 一 个 数据 框 . 
第 二 种 转化 格式 是 将 Excel 表 转 化 成 “CSV( 豆 号 分 隔 )” 文 件 ， 如 图 2.19 所 


用 函数 read.csv() 读 该 文本 文件 ， 即 


> rc <- read.csv('"educ_scores.csv') 


得 到 的 变量 rc 是 一 个 数据 框 . 
2.7.3 ”链接 府 入 的 数据 库 


R 软件 中 提供 了 50 多 个 数据 库 和 其 他 可 利用 的 软件 包 ， 可 以 用 data() 画 
数 调用 这 些 数据 库 与 软件 包 . 用 
> data() 
命令 , 列 出 在 基本 软件 包 (base) 所 有 可 利用 的 数据 集 . 如 果 装 载 某 一 个 数据 集 ， 
只 需 在 括号 中 加 入 相应 的 名 字 ， 如 


> data(infert) 
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icrosoft Excel - educ_scores 另存 为 


保存 位 置 诺 ) : 的 NyWorkSpace 
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图 2.19: 将 Excel 表 存 为 CSV 文件 


如 果 需 要 从 其 他 的 软件 包 链 接 数据 ， 可 以 使 用 参数 package, 例如 ， 
> data(package='nls") 
> data(Puromycin,package="nls") 
如 果 一 个 软件 包 已 被 library 附加 在 库 中 ， 则 这 个 数据 库 将 自动 地 被 包含 在 其 
中 :如 
> library(nls) 
> data() 


> data(Puromycin) 


在 data() 中 ， 除 包含 基本 软件 包 (base) 还 包含 nls 软件 包 . 
2.7.4 “与 数据 文件 


1. write( ) 函数 
write() 函数 写 数 据 文 件 的 格式 是 


write(x, file = "data", 


ncolumns = if(is.character(x)) 1 else 5, 
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append = FALSE) 
其 中 x 是 数据 ， 通常 是 逢 阵 ， 也 可 以 是 向 量 . file 是 文件 名 ( 缺 省 时 文件 名 为 
"data"). append=TRUE 时 ， 在 原文 件 上 填 加 数据 ， 否 则 (FALSE, 缺 省 值 ) 写 一 个 
新 文件 ， 其它 参 数 见 帮 助 文件 . 


2. write.table( ) 函数 和 write.csv( ) 函数 


对 于 列表 数据 或 数据 框 数 据 ， 可 以 用 write.table() 函数 或 write.csv() 
函数 写 纯 文本 格式 的 数据 文件 ， 或 CSV 格式 的 Excel 数据 文件 ， 例 如 ， 
> df <- data.frame( 
Name=c('"Alice"，"Becka"，"James"，"Jeffrey"，"John'") ， 
Sex=cC"F", "F", "M", "M", "M"), 
Age=c(13，13，12，13，12) ， 
Height=c(56.5, 65.3, 57.3, 62.5, 59.0), 
Weight=c(84.0，98.0，83.0，84.0，99.5) 
) 
> write.table(df, file="foo.txt") 
> write.csv(df, file="foo.csv') 
write.table() 函数 和 write.csv() 函数 的 使 用 格式 为 
write.table(x, file = "", append = FALSE, quote = TRUE， 
Sep =" ", eol = "\n", na = "NA", dec = ".", 
row.names = TRUE, col.names = TRUE， 


qmethod = c("escape", "double'")) 


write.csv(..., col.names = NA, sep = ",", 
qmethod = "double") 
其 中 x 是 对 象 ，file 是 文件 名 . append=TRUE 时 , 在 原文 件 上 填 加 数据 ;否则 
(FALSE, 缺 省 值 ) 写 一 个 新 文件 . sep 是 数据 间隔 字符 .其 它 参 数 见 帮助 文件 . 


2.8 ”控制 流 


R 是 一 个 表达 式 语言 ， 其 任何 一 个 语句 都 可 以 看 成 是 一 个 表达 式 . 表达 式 之 
间 以 分 号 分 隔 或 用 换行 分 隔 . 表达 式 可 以 续 行 ， 只 要 前 一 行 不 是 完整 表达 式 ( 比 








2.8 控制 流 


如 末尾 是 加 减 乘 除 等 运算 符 ， 或 有 未 配对 的 括号 ) 则 下 一 行为 上 一 行 的 继续 . 


者 干 个 表达 式 可 以 放 在 一 起 组 成 一 个 复合 表达 式 ， 作 为 一 个 表达 式 使 用 . 


合用 花 括号 “{ }” 表示 . 

R 语言 也 提供 了 其 它 高 级 程序 语言 共有 的 分 支 、 循 环 等 程序 控制 结构 . 
2.8.1 ”分 支 语句 

分 支 语句 有 if / else 语句 、 switch 语句 . 

1. 证 / else 语句 

if / else 语句 是 分 支 语 句 中 主要 的 语句 ， if / else 语句 的 格式 为 


if(cond) statement_1 


if(cond) statement_1 else statement_2 
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组 


第 一 句 的 意义 是 : 如 果 条 件 cond 成 立 ， 则 执行 表达 式 statement_1; 否则 跳 过 . 
第 二 句 的 意义 是 : 如 果 条 件 cond 成 立 ， 则 执行 表达 式 statement_1; 否则 执行 


表达 式 statement_2. 
例如 ， 
if( any(x <= 0) ) y <- log(1+X) else y <- log(x) 
注意 ， 此 命令 与 下 面 的 命令 
y <- if( any(x <= 0) ) log(1i+x) else log(x) 
等 价 . 
对 于 if / else 语句 ， 还 有 下 面 的 用 法 
if ( cond_1 ) 
statement_1 
else if ( cond_2) 
statement_2 
else if ( cond_3) 
statement_3 
else 


statement_4 
2. switch 语句 
switch 语句 是 多 分 支 语 句 ， 其 使 用 方法 是 : 
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switch (statement, list) 
其 中 statement 是 表达 式 ， 1ist 是 列表 ， 可 以 用 有 名 定义 ， 如 果 表 达 式 的 返回 
值 在 1 到 length(1list), 则 返回 列表 相应 位 置 的 值 ， 否 则 返回 “NULL” 值 . 例 
如 ， 





>, 3 

> switch(x, 2+2, mean(1:10), rnorm(4)) 

[1] 0.8927328 -0.7827752 1.0772888 1.0632371 

> switch(2, 2+2, mean(1:10), rnorm(4)) 

[1] 5.5 

> switch(6, 2+2, mean(1:10), rnorm(4)) 

NULL 
当 List 是 有 名 定义 时 ， statement 等 于 变量 名 时 ， 返 回 变 量 名 对 应 的 值 ;否则 
返回 “NULL” 值 . 例如， 

> y <- "fruit" 

> switch(y,fruit="banana" ,vegetable="broccoli",meat="beef'") 


[1] "banana 


2.8.2 ”中 止 语 名 与 空 语句 


中 止 语句 是 break 语句 ， break 语句 的 作用 是 中 止 循环 ， 使 程序 跳 到 循环 
以 外 .至 语句 是 next 语句 ， next 语句 是 继续 执行 ， 而 不 执行 某 个 实质 性 的 内 
容 . 关于 break 语句 和 next 语句 的 例子 ， 将 结合 循环 语句 来 说 明 . 


2.8.3 ”循环 语句 
循环 语句 有 for 循环 、 while 循环 和 repeat 循环 语句 . 
1. for 循环 语句 
for 循环 的 格式 为 


> for (name in expr_1) expr_2 


其 中 name 是 循环 变量 ， expr_l 是 一 个 向 量 表达 式 (通常 是 个 序列 ， 如 1:20)， 
expr_2 通常 是 一 组 表达 式 . 
如 构造 一 个 4 阶 的 Hilbert 算 阵 ， 
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> n<-4; x<-array(0，dim=c(n,n)) 
> for (i in 1:n){ 
for (j in 1:n){ 
x[i,j]<-1/(i+j-1) 


[,1] [,2] [,3] [,4] 
[1,] 1.0000000 0.5000000 0.3333333 0.2500000 
[2,] 0.5000000 0.3333333 0.2500000 0.2000000 
[3,] 0.3333333 0.2500000 0.2000000 0.1666667 
[4,] 0.2500000 0.2000000 0.1666667 0.1428571 


2. while 循环 语句 
while 循环 语句 while 语句 的 格式 为 


> while (condition) expr 
当 条 件 condition 成 立 ， 则 执行 表达 式 expr. 例如 ,编写 一 个 计算 1000 以 内 的 
Fibonacci 数 . 
> f<-1; f[2]<-1; i<-1 
> while (f[i]+f[i+1]<1000) 荆 
f [i+2] <-f [i] +f [i+1] 
i<-i+1; 
} 
> 工 


[1] 1 1 2 3 5 8 13 21 34 55 89 144 
[13] 233 377 610 987 


3. repeat 循环 语句 
repeat 语句 的 格式 为 


> repeat expr 


repeat 循环 依赖 break 语句 跳出 循环 . 例如 ,用 repeat 循环 编写 一 个 计算 1000 
以 内 的 Fibonacci 数 的 程序 . 
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> f<-1; f[2]<-1; i<-1 
> repeat { 
f [i+2] <-f [i]+f [i+1] 
i<-i+1 
if (f[i]+f[i+1]>=1000) break 
} 


或 将 条 件 语句 改 为 if (f[i]+f[i+1]<1000) next else break, 也 有 同样 的 计 
算 结 果 . 


2.9 编写 自己 的 函数 


R 软件 允许 用 户 自 己 创建 模型 的 目标 函数 ， 有 许多 R 函数 存 贮 为 特殊 的 内 
部 形式 ， 并 可 以 被 进一步 的 调用 . 这样 在 使 用 时 可 以 使 语言 更 有 力 、 更 方便 ， 而 
且 程 序 也 更 美观 . 学 习 写 自己 的 程序 是 你 学 习 使 用 R 语言 的 主要 方法 之 一 . 

事实 上 ， BR 系统 提供 的 绝 大 多 数 函 数 ， 如 mean(), var(), postscript() 
等 ， 是 系统 编写 人 员 写 在 R 语言 中 的 函数 ， 与 你 自己 写 的 函数 本 质 上 没有 多 大 
差别 . 

函数 定义 的 格式 如 下 ， 

> name <- function(arg_1，arg_2，...) expression 


expression 是 R 中 的 表达 式 (通常 是 一 组 表达 式 ), arg_1，arg_2，... 表示 函数 
的 参数 ,表达 式 中 ， 放 在 程序 最 后 的 信息 是 函数 的 返回 值 ， 返 回 值 可 以 是 向 量 、 
数组 (矩阵 ) 、 列 表 或 数据 框 , 

调用 函数 的 格式 为 name (expr_1，expr_2，...), 并且 在 任何 时 调用 都 是 合 
法 的 . 

在 调用 自己 编写 的 函数 (程序 ) 时 ， 需 要 将 已 写 好 的 函数 调 到 内 存 中 ， 即 使 
用 2.1.3 节 介 绍 的 “输入 RB 代码 . . . ”命令 ， 执 行 source() 函数 . 关于 函数 的 调 
用 ， 后 面 的 各 章 还 会 有 介绍 ， 

















2.9.1 ”简单 的 例子 
与 其 他 程序 一 样 ， R 可 以 很 容易 地 编写 自己 需要 的 函数 . 





2.9 编写 自己 的 函数 115 


例 2.4 编写 一 个 用 二 分 法 求 非 线性 方程 根 的 函数 ， 并 求 方 各 


2 一 7Z 一 1=0 


在 区 间 [1,2] 内 的 根 ， 精 度 要 求 = = 10-6 
解 : 取 初 始 区 间 [a, 路 当 f(a) 与 f(5) 异 号 ， 作 二 分 法 计算 ， 否 则 停止 计算 
(输出 计算 失败 信息 ). 
二 分 法 计算 过 程 如 下 ， 取 中 点 x = 味 , 若 f(a) 与 f(x) 异 导 ， 则 置 = 7 
否则 a = zx. 当 区 间 长 度 小 于 指定 要 求 时 ， 停 止 计算 . 
编写 二 分 法 程序 ， 程 序 名 : ”bisect.R. 
fzero <- function(f, a, b, eps=1e-5)1{ 
if (f(a)*f(b)>0) 
list(fail="finding root is fail!") 
elset 
repeat { 
if (abs(b-a)<eps) break 
x <- (at+b)/2 
if (f(a)*f(x)<0) b<-x else a<-x 
} 
list(root=(a+b)/2, fun=f (x)) 


} 

在 二 分 法 求 根 的 函数 (程序 ) 中 , 输入 值 £ 是 求 根 的 函数 ，a，b 是 二 分 法 的 
左右 端点 ， eps=1e-5 是 精度 要 求 ， 是 有 名 参数 (后 面 将 介绍 ). 函数 (程序 ) 的 返 
回 值 是 列表 ， 当 初始 区 间 不 满足 要 求 时 ， 返 回 值 为 “finding root is fail”( 求 根 失 
败 ); 当 满 足 终止 条 件 时 ， 返 回 值 为 方程 根 的 近似 值 和 在 近似 点 处 的 函数 值 . 

建立 求 根 的 非 线性 函数 

f<-function(x) x 3-x-1 
求 它 在 区 间 [1,2] 内 的 根 . 

> fzero(f, 1, 2, 1e-6) 

$root 

[1] 1.324718 
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$fun 
[1] -1.857576e-06 
事实 上 ， 大 家 不 用 编写 求 根 函数 ， 及 软件 已 提供 了 求 一 元 方程 根 的 函数 
uniroot(), 其 使 用 格式 为 


uniroot(f, interval, 








lower = min(interval), upper = max(interval), 
tol = .Machine$double.eps“°0.25, maxiter = 1000, ...) 
例如 ， 要 求 例 2.4 的 根 ， 只 需 输 入 命令 
> uniroot (f , c(1,2)) 
就 可 得 到 
$root 
[1] 1.324718 
$f .root 
[1] -5.634261e-07 
$iter 
[1] 7 
$estim.prec 
[1] 6.103516e-05 
其 计算 结果 与 我 们 编写 的 程序 的 计算 结果 是 相同 的 . 
下 面 编写 一 个 与 统计 有 关 的 函数 一 计算 两 样本 的 了 统计 量 . 
例 2.5 已 知 两 样本 
A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
计算 两 样本 的 了 统计 量 . 
解 : 当 两 样本 的 方差 相同 ， 且 未 知 ， 则 了 统计 量 的 计算 公式 为 


其 中 
人 1 一 1)S7 十 (n2 -= 1)S2 


2 ( 
三 2.2 
、 ni 十 n2 一 2 | ( ) 
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X,Y 分 别 是 两 组 数据 的 样本 均值 ， 57, 53 分 别 是 两 组 数据 的 样本 方差 ，n1, n2 
分 别 为 两 组 数据 的 个 数 . 
按照 式 (2.1) 和 (2.2) 编写 相应 的 程序 (程序 名 : twosam.R ) 
twosam <- function(y1，y2) { 
ni <- length(y1); n2 <- length(y2) 
yb1l1 <- mean(y1); yb2 <- mean(y2) 
S1 <- Var(y1); s2 <- Var(y2) 
s <- ((ni-1)*si + (n2-1)*s2)/(ni+n2-2) 
(yb1 - yb2)/sqrt(s*(1/ni + 1/n2)) 
} 
在 函数 (程序 ) 中 ， 输 入 值 yt ，y2 是 需要 计算 工 统计 量 的 两 组 数据 函数 
(程序 ) 的 返回 值 是 数值 型 变量 ， 给 出 相应 的 工 统计 量 . 
输入 数据 A, B, 并 计算 了 统计 量 . 
> A <- c(79.98，80.04，80.02，80.04，80.03，80.03， 
80.04，79.97，80.05，80.03，80.02，80.00，80.02) 
> B <- c(80.02，79.94，79.98，79.97，79.97，80.03， 
79.95，79.97) 
> twosam(A,B) 
[1] 3.472245 


在 后 面 我 们 还 会 讲 到 ， 用 7 了 统计 量 来 估计 两 样本 均值 是 否 相同 . 
2.9.2 ”定义 新 的 二 元 运算 

R 软件 可 以 定义 的 二 元 运算 ， 其 形式 为 hanything%. 设 x,y 是 两 个 向 量 ， 
定义 7 与 y 的 内 积 

(x,y) = exp(—|lz — yl /2), 
其 运算 符号 用 %!% 表示 ， 则 二 元 运算 的 定义 如 下 
"WI" <- function(x， y) {exp(-0.5*(x-y) 水 (x-y))} 

2.9.3 ”有 名 参数 与 省 缺 


如 果 用 这 种 形式 “ name=object ”给 出 被 调用 函数 中 的 参数 ， 则 这 些 参数 可 
以 按照 任何 顺序 给 出 ， 如 定义 如 下 函数 
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> fun1 <- function(data, data.frame, graph, limit) { 
[function body omitted] 
} 


则 下 面 的 三 种 调用 方法 
> ans <- funi(d, df, TRUE, 20) 


> ans <- funi(d, df, graph=TRUE, limit=20) 
> ans <- funi(data=d, limit=20, graph=TRUE, data.frame=df) 


都 是 等 价 的 . 


如 果 在 例 2.4 中 ， 其 精度 要 求 取 le-5(10-5), 则 不 必 输 入 精度 要 求 ， 直 接 输 
入 区 间 端 点 即 可 . 


> fzero(1,2) 
$root 

[1] 1.324718 
$fun 

[1] -1.405875e-05 


下 面 利 用 有 名 参数 的 方法 编写 一 个 求 非 线性 方程 组 根 的 Newton 法 的 程序 . 


例 2.6 编写 求 非 线性 方程 组 解 的 Newton 法 的 程序 , 并 用 此 程序 求解 非 线 性 方程 
组 


i 


(Zz1 十 1)z2 = (371 十 1) = 


的 解 ， 取 初始 点 X(0 = (0,1)7, 精度 要 求 = 一 10-5. 
解 : 求解 非 线性 方程 组 


f(z)=0, f:R*— REeC! 
的 Newton 法 的 迭代 格式 为 


TtD) 一 [J(z®)]-1F (x), k= 0,1,..- 
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其 中 J(z) 为 函数 f(x) 的 Jacobi 矩阵 ， 即 


2 2 .0 
Ox1 Ox2 Ozn 
2 PP ... 2f2 
J (7) OX1 Ox2 Ozn 
ofn dfn ... fn 
OX1 Ox2 On 


因此 ， 相 应 的 程序 (程序 名 : ”Newtons.R ) 为 
Newtons<-function (fun, x, ep=1le-5, it_max=100)+ 
index<-0; k<-1 
While (k<=it_max){ 
xl <- x; obj <- fun(x); 
x <- X- solve(obj$J], obj$f); 
norm <- sqrt((x-x1) %*% (x-x1)) 
if (norm<ep){ 
index<-1; break 
} 
k<-k+1 
} 
obj <- fun(x); 
list(root=x, it=k, index=index, FunVal= obj$f) 
} 
在 此 函数 (程序 ) 中 ， 输 入 变量 有 ， fun 是 由 方程 构成 的 函数 ， 具 体形 式 在 
下 面 介绍 . x 是 初始 变量 ， ep 是 精度 要 求 ， 缺 省 时 为 10“. it_max 是 最 大 和 迭 
代 次 数 ， 缺 省 时 为 100. 
函数 (程序 ) 以 列表 的 形式 作为 输出 变量 ， 有 : root 是 方程 解 的 近似 值 . 
让 是 从 代 次 数 . index 是 指标 ，index=1 表明 计算 成 功 ， index=0 表明 计算 失 
由. FunVal 是 方程 在 root 处 的 函数 值 . 
编写 求 方程 的 函数 (程序 名 :funs .BR) 
funs<-function(x){ 


f<-c(x[1] “2+x[2] “2-5, (x[1]+1)*x[2]-(3*x[1]+1)) 


120 第 二 章 R 软件 的 使 用 


J<-matrix(c(2*x[1] , 2*x[2], x[2]-3, x[1]j+1), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 
函数 (程序 ) 的 输入 变量 是 x. 在 函数 (程序 ) 中 ，£ 是 所 求 方 程 的 函数 ，J 是 
相应 的 Jacobi 矩阵 ， 函 数 的 输出 以 列表 形式 给 出 ， 输 出 函数 值 和 相应 的 Jacobi 
矩阵 . 
下 面 求解 该 方程 
> Newtons (funs, c(0,1)) 
$root 
[1] 1 2 
$it 
[1] 6 
$index 
[1] 1 
$FunVal 
[1] 1.598721e-14 6.217249e-15 


即 方程 的 解 x* = (1 2) ,总 共和 迭代 了 6 次 . 
2.9.4 递归 函数 











R 函数 是 可 以 递归 的 , 可 以 在 函数 自身 内 定义 函数 本 喘 . 下 面 的 例子 是 用 递 
归 函 数 计算 数值 积 
例 2.7 用 递归 函数 计算 数值 积分 厂 至 , 精度 要 求 < = 10-5. 

解 : 采用 上 自动 选择 步 长 的 复 化 梯形 公式 ， 其 方法 是 : 每 次 将 区 间 二 等 分 ， 在 
子 区 间 上 采用 梯形 求 积 公式 ， 如 果 计 算 满 足 精 度 要 求 或 达到 最 大 迷 代 次 数 ， 则 停 
止 计算 ， 否 则 继续 将 区 间 对 分 ,编写 相应 的 计算 程序 ( 程序 名 :area.R ) 


area <- function(f, a, b, eps = 1.0e-06, lim = 10) { 








funi <- function(f, a, b, fa, fb, a0, eps, lim, fun) { 
d <- (a + b)/2; h <- (b - a)/4; fd <- f(d) 
al <- h * (fa + fd); a2 <- h * (fd + fb) 
if(abs(a0 - al - a2) < eps || lim == 0) 
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return(al + a2) 
else { 
return(fun(f, a, d, fa, fd, ail, eps, lim - 1, fun) 
+ fun(f, d, b, fd, fb, a2, eps, lim - 1, fun)) 


} 
fa <- f(a); fb <- f(b); a0 <- ((fa + fb) * (b - a))/2 
funi(f, a, b, fa, fb, a0, eps, lim, fun1) 
} 
程序 的 输入 变量 ， f 是 被 积 函数 ， a,b 是 积分 的 端点 ， eps 是 积分 精度 要 
求 ， 缺 省 值 为 10““. 1im 是 对 分 区 间 的 上 限 ， 缺 省 值 为 10, 即 被 积 区 间 最 多 被 等 
分 为 2° 个 子 区 间 . 输出 变量 为 积分 值 . 
area 函数 相当 于 主 程序 ， 首 先 用 梯形 公式 计算 出 积分 的 近似 值 ， 然 后 调用 
函数 fun1. 
fun1 函数 相当 于 子 程序 ， 该 函数 是 采用 递归 的 定义 方式 编写 的 函数 ， 其 意 
义 是 : 将 区 间 对 分 ， 采 用 复 化 求 积 公式 ， 若 本 次 的 计算 值 与 上 一 次 的 计算 值 相差 
小 于 精度 要 求 eps 或 1im = 0 时 ， 则 停止 计算 ， 否则 分 别 调用 自身 函数 . 
下 面 计算 各 分 ， 先 定义 函数 
> f <- function(x) 1/x 
再 计算 其 积分 值 
> quad<-area(lf,1,5); quad 
[1] 1.609452 


该 积分 的 精确 值 为 mn5 = 1.609438. 








习题 二 


2.1 建立 一 个 文件 ， 在 文件 中 输入 变量 x 二 (1,2,3)7, y = (4,5,6)7 了 ,并 作 以 
下 运算 . 

(1) 计算 z==2x 十 y 十 e, 其 中 e= (1,1,1)?; 

(2) 计算 2 与 y 的 内 积 ; 


122 第 二 章 R 软件 的 使 用 


(3) 计算 2 与 9 的 外 积 . 
2.2 将 1,2,…,20 构成 两 个 4x5 阶 的 和 矩阵， 其 中 矩阵 A 是 按 列 输入 ， 矩 阵 万 
是 按 行 输入 ， 并 作 如 下 运算 . 
(C=A+B; 
(2) D = AB; 
(3) E = (eij)nxn; 其 中 eij = aij : biy; 
(人 已 是 由 4 的 前 3 行 和 前 3 列 构成 的 矩阵 ; 
(5) G 是 由 矩阵 B 的 各 列 构成 的 和 矩阵， 但 不 含 B 的 第 3 列 . 
2.3 构造 一 个 向 量 2, 向量 是 由 5 个 1, 93 个 2, 4 个 3 和 2 个 4 构成 ,注意 用 到 
rep() 函数 ， 
2.4 生成 一 个 上 5 阶 的 Hilbert 算 阵 ， 
= 
1 十 了 一 工 
(1) 计算 Hilbert 算 阵 五 的 行列 式 ， 
(2) 求 是 的 逆 矩 阵 ; 
(3) 求 是 的 特征 值 和 特征 向 量 . 
2.5 已 知 有 5 名 学 生 的 数据 ， 如 表 2.3 所 示 . 用 数据 框 的 形式 读 入 数据 . 


表 2.3: 学 生 数 据 
Ry | As | a | fm | #8) | A 


ah 二 (hy) hi a 1,7 一 1,2, Be 


1 42.0 
2 49.0 
3 41.5 
4 52.0 
5 45.5 





2.6 将 例 2.5 中 的 数据 表 2.3 的 数据 写成 一 个 纯 文 本 文件 ,用 函数 read.table() 
读 该 文件 ， 然 后 再 用 函数 write.csv() 写成 一 个 能 用 Exzcel 表 能 打开 的 文件 ， 
并 用 Ercel 表 打 开 . 
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2.7 编写 一 个 忆 程序 (函数 ) 输入 一 个 整数 n, 如 果 n < 0, 则 中 止 运算 ， 并 输 
出 一 句 话 : “要 求 输入 一 个 正 整 数 ”; 否则 ， 如 果 n 是 偶数 ， 则 将 n 除 2 并 赋 
给 n; 否则 ， 将 3n 十 1 赋 给 n. 不 断 符 环 ， 只 到 n 二 1, 才 停 止 计算 ， 并 输出 一 各 
话 : “运算 成 功 ” 这 个 例子 是 为 了 检验 数论 中 的 一 个 简单 的 定理 ， 
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第 三 章 ”数据 描述 性 分 析 


统计 分 析 分 为 统计 描述 和 统计 推断 两 个 部 分 . 统计 描述 是 通过 绘制 统计 图 、 
编制 统计 表 、 计 算 统计 量 等 方法 来 表述 数据 的 分 布 特征 . 它 是 数据 分 析 的 基本 步 
又 ， 也 是 进行 统计 推断 的 基础 . 本 章 介绍 统计 描述 ， 也 就 是 数据 的 描述 性 分 析 ， 
关于 统计 推断 的 内 容 ， 将 在 后 面 各 章 陆 续 介 绍 . 

用 计算 机 软件 作 数 据 的 描述 性 分 析 ， 可 以 更 加 方便 、 直 观 ， 有 利于 对 统计 描 
述 的 理解 . 本 章 除 介绍 描述 统计 的 基本 概念 外 ， 重 点 介绍 如 何 运 用 R 软件 中 的 
函数 对 数据 进行 描述 性 分 析 . 


3.1 ”描述 统计 量 
已 知 一 组 试验 (或 观测 ) 数据 为 
VT1, Xo, Tn. 


它们 可 以 是 从 所 要 研究 的 对 象 的 全 体 一 总 体 X 中 取出 的 ， 这 n 个 观测 值 就 构 
成 一 个 样本 .在 某 些 简单 的 实际 问题 中 ， 这 n 个 观测 值 就 是 所 要 研究 问题 的 全 
体 ， 数据 分 析 的 任务 就 是 要 对 这 全 部 n 个 数据 进行 分 析 ， 提 取 数 据 中 包含 的 有 
用 信息 . 

数据 作为 信息 的 载体 ， 当 然 要 分 析 数 据 中 包含 的 主要 信息 ， 即 要 分 析 数 据 的 
主要 特征 . 也 就 是 说 ， 要 研究 数据 的 数字 特征 . 对 于 数据 的 数字 特征 ， 要 分 析 数 
据 的 集中 位 置 、 分 散 程 度 和 数据 分 布 等 . 


3.1.1 位置 的 度量 


所 谓 位 置 的 度量 就 是 那些 用 来 描述 定量 资料 的 集中 趋势 的 统计 量 . 常用 的 有 
均值 、 众 数 、 中 位 数 、 百 分 位 数 等 . 


1. 均值 
均值 (mean) 是 数据 的 平均 数 ， 均 值 ( 记 为 习 定义 为 


1 Nn 
守 a 3.1 
a ard 3 
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它 描述 数据 取 值 的 平均 位 置 . 

在 R 软件 中 ， 可 用 mean() 函数 计算 样本 的 均值 ， 其 的 使 用 方法 是 

mean(x, trim = 0, na.rm = FALSE) 

其 中 x 是 对 象 (如 向 量 、 逢 阵 、 数 组 或 数据 框 ), trim 是 计算 均值 前 去 掉 与 均值 差 
较 大 数据 的 比例 ， 缺 省 值 为 0, 即 包括 全 部 数据 . 当 na.rm = TRUE 时 ,人 允许 数据 
中 有 缺失 数据 ， 函 数 的 返回 值 是 对 象 的 均值 . 

有 关 它 的 使 用 ， 将 用 例子 来 作 进一步 的 介绍 . 
例 3.1 已 知 15 位 学 生 的 体重 (单位 ， 千克 ) 


75.0 640 47.4 66.9 .622 622 58.7 63.5 
66.6 64.0 57.0 “69.0 56.9 50.0 72.0 


求学 生体 重 的 平均 值 . 
解 : 利用 mean() 函数 求解 .建立 R 文件 (文件 名 : ”exam0301.R) 
Ww <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7，63.5, 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
Ww.mean <- mean(w); W.mean 
执行 exam0301.R 的 的 全 部 程序 得 到 ， 学 生体 重 的 均值 为 62.36. 
注意 ， 当 x 是 矩阵 (或 数组 ) 时 ， 函 数 mean() 的 返回 值 ， 并 不 是 向 量 , 而 是 
一 个 数 ， 即 冠 阵 中 全 部 数据 的 平均 值 ， 例 如 ， 
> x <- 1:12; dim(x)<-c(3,4) 





> mean(x) 

[1] 6.5 
与 mean(1:12) 的 返回 值 相同 ， 而 这 里 x 是 一 个 3 x 4 的 矩阵 . 

如 有 果 你 需要 得 到 甜 阵 各 行 或 各 列 的 均值 ,， 需要 调用 apply() 函数 ( 见 第 二 章 

2.5.5 市 ) 计算 ， 如 计算 矩阵 各 行 的 均值 ， 

> apply(x,1,mean) 

[1] 5.5 6.5 7.5 
计算 甜 阵 各 列 的 均值 ， 

> apply (x,2,mean) 

[1] 2 5 811 
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如 果 x 是 数据 框 ， 则 mean() 的 返回 值 就 是 向 量 ， 如 
> mean(as .dqata.frame(X)) 
Vi V2 V3 V4 
2 5 811 
可 以 看 出 它 是 按 列 求 平 均值 的 ， 其 中 命令 as .data.frame(x)( 见 第 二 章 2.6.2 证 ) 
是 将 矩阵 x 强制 转化 成 数据 框 . 
因此 , 今后 在 作 多 元 数据 分 析 时 ， 多 元 数据 的 输入 最 好 采用 数据 框 的 形式 ， 
这 样 便于 后 面 的 数据 处 理 . 
求 和 函数 sum() 是 与 求 均值 有 关 的 函数 ， 其 使 用 格式 为 
sum(..., na.rm = FALSE) 
参数 na.rm 的 意义 与 均值 函数 mean() 中 的 参数 意义 相同 . 
如 果 x 是 向 量 ， 隐 数 length(x) 的 返回 值 是 向 量 x 的 长 度 ( 维 数 ). 因此 ， 
由 公式 (3.1), 例 3.1 的 均值 可 由 下 面 的 计算 得 到 ， 即 
> mean <- sum(w)/length(w); mean 
[1] 62.36 
可 以 看 出 ， 两 者 的 计算 是 相同 的 . 
但 如 果 在 数据 中 ， 某 些 数据 是 异常 值 ， 再 用 公式 (3.1) 就 不 合理 了 . 也 就 是 
说 , 不 能 简单 地 用 mean(w) 计算 样本 均值 . 例如 ， 如果 第 一 个 学 生 的 体重 少 输 入 
一 个 点 ， 变 为 750 千克 ， 此 时 按照 式 (3.1) 计算 出 的 值 会 出 现 不 合理 的 现象 ， 看 
一 下 计算 结果 
> w[1] <- 750 
> Ww.mean <- mean(w); w.mean 
[1] 107.36 
学 生 的 平均 体重 为 107.36 和 干 克 ， 这 显然 是 不 合理 的 . 
如 果 采 用 下 述 方法 ， 可 以 减少 由 于 输入 误差 对 计算 的 影响 . 
> w.mean <- mean(w, trim=0.1); w.mean 
[1] 62.53846 
其 中 trin 的 取 值 在 0 至 0.5 之 间 ， 表 示 在 计算 均值 前 需要 去 掉 异 常 值 的 比例 . 
利用 这 个 参数 可 以 有 效 的 改善 异常 值 的 对 计算 的 影响 . 
na.rm 是 控制 缺失 数据 的 参数 . 例如 ,如 果 共 有 16 位 学 生 , 但 第 16 位 学 生 
的 体重 缺失 ， 如 果 按 照 通 常 的 计算 方法 ， 将 得 不 到 结果 . 
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> w.na <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0，NA) 
> VW.mean <- mean(w.na); w.mean 
[1] NA 
选用 参数 na.rm = TRUE 可 以 很 好 地 处 理 这 个 问题 ， 看 一 下 计算 结果 . 
> VW.mean <- mean(w.na, na.rm = TRUE) ; w.mean 
[1] 62.36 
对 于 sum() 函数 ， 此 参数 的 意义 是 相同 的 ， 即 na.rm = TRUE 表示 可 以 求 带 
有 人 缺失 数据 的 和 . 
与 均值 函数 mean() 相关 的 函数 还 有 weighted.mean(), 即 计算 数据 的 加 权 
平均 值 ， 具 体 的 使 用 格式 为 
weighted.mean(x, W, na.rm = FALSE) 
其 中 x 是 数值 向 量 ， 是 数据 x 是 权 ， 与 x 的 维 数 相同 ， 参 数 na.rm 的 意义 与 
mean() 函数 相同 .该 函数 可 以 对 矩阵 和 数组 计算 加 权 平 均值 ， 但 对 数据 框 不 适 
用 (对 于 数据 框 ， weighted.mean() 函数 的 计算 结果 与 矩阵 的 计算 结果 是 相同 
的 ， 而 mean() 函数 两 者 的 计算 结果 是 不 同 的 ). 


2. 顺序 统计 量 
设 n 个 数据 (观测 值 ) 按 从 小 到 大 的 顺序 排列 为 











20) < X02) 1 < rn), 











称 为 顺序 统计 量 (order statistic), 显然 ， 最 小 顺序 统计 量 为 za), 最 大 顺序 统计 量 
为 Tn). 
在 R 软件 中 ， sort() 给 观测 量 的 顺序 统计 量 ， 如 
> x <- c(75，64，47.4，66.9，62.2，62.2，58.7，63.5) 
> sort(x) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 
实际 上 , 函数 sort () 不 只 是 给 出 了 样本 的 顺序 统计 量 , 还 有 更 广泛 的 功能 ， 
其 使 用 格式 为 
sort(x, partial = NULL, na.last = NA, decreasing = FALSE， 
method = c("shell", "quick"), index.return = FALSE) 
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其 中 x 是 数值 、 或 字符 、 或 逻辑 型 癌 量 . partial 是 部 分 排序 的 指标 向 量 , 
na.last 是 控制 缺失 数据 的 参数 ， 当 na.last = NA( 缺 省 值 ) 时 ， 不 处 理 缺 失 数 
据 ; 当 na.last = TRUE 时 , 缺失 数据 排 在 最 后 ; 当 na.last = FALSE 时 , 缺失 数 
据 排 在 最 前 面 ， decreasing 是 逻辑 变量 , 控制 数据 排列 的 顺序 , 当 decreasing 
= FALSE ( 缺 省 值 ), 给 出 的 返回 值 ,是 由 小 到 大 排序 的 ; 如 果 decreasing = TRUE， 
则 函数 的 返回 值 由 大 到 小 排列 ， method 是 排序 的 方法 , 如 果 method = "shell" 
( 缺 省 值 ), 则 选择 Shell 排序 法 排序 , 其 运算 量 为 O(n43); 如 果 method = "quick"， 
则 采用 快速 排序 法 排序 , 对 于 数值 型 向 量 , 快速 排序 法 的 运算 量 一 般 要 低 于 Shell 
排序 法 .index.return 是 逻辑 变量 , 是 控制 排序 下 标的 返回 值 , 当 index.return 
= TRUE 时 ( 缺 省 值 为 FALSE), 函数 的 返回 值 是 一 列表 , 列表 的 第 一 个 变量 $x 是 
排序 的 顺序 ， 第 二 个 变量 是 $ix 是 排序 顺序 的 下 标 对 应 的 值 . 


下 面 用 数值 例子 看 一 下 函数 sort () 中 各 种 参数 的 使 用 方法 . 如 需要 将 数据 
由 大 到 小 排 ， 则 用 参数 decreasing = TRUE. 如 








> sort(x, decreasing = TRUE) 
[1] 75.0 66.9 64.0 63.5 62.2 62.2 58.7 47.4 


当 数 据 中 有 缺失 数据 时 ， 并 不 希望 处 理 缺 失 数据 ， 则 不 必 调 整 任 何 参数 . 如 


> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 
> sort(x.na) 


[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


如 果 硕 望 在 排序 后 的 数据 中 保留 缺失 数据 , 并 将 缺失 数据 排 在 最 后 , 则 用 na.1ast 
= TRUE. 如 果 将 缺失 数据 排 在 最 前 ， 则 用 na.last = FALSE. 如 


> sort(x.na, na.last = TRUE) 
[1] 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 NA 
> sort(x.na, na.last = FALSE) 
[1] NA 47.4 58.7 62.2 62.2 63.5 64.0 66.9 75.0 


与 sort() 函数 相关 的 函数 有 : ”order() 给 出 排序 后 的 下 标 ;，rank() 给 出 
样本 的 秩 统 计量 ， 关 于 rank() 函数 在 第 五 章 还 会 介绍 ， 


3. 中 位 数 
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中 位 数 (median, 记 为 me) 定义 为 数据 排序 位 于 中 间 位 置 的 值 ， 即 


{ (对 +)) 当 n 为 奇数 时 ， es 
| 3 (z@ 十 zG40】 ， 当 n 为 偶数 时 . 


中 位 数 描述 数据 中 心 位 置 的 数字 特征 . 大 体 上 比 中 位 数 大 或 小 的 数据 个 数 为 
整个 数据 的 一 半 . 对 于 对 称 分 布 的 数据 ,均值 与 中 位 数 比 较 接近 ;对 于 偏 态 分 布 
的 数据 ,均值 与 中 位 数 不 同 . 中 位 数 的 又 一 显著 特点 是 不 受 异 常 值 的 影响 ， 具 有 
稳健 性 ， 因 此 它 是 数据 分 析 中 相当 重要 的 统计 量 . 

在 R 软件 中 ， 函 数 median() 给 观测 量 的 中 位 数 .， 如 

> x <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7，63.5) 

> median(x) 

[1] 62.85 

median() 函数 的 使 用 格式 为 

median(x, na.rm = FALSE) 
其 中 x 是 数值 型 向 量 ， na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ， 子 数 可 以 处 理 
人 带 有 缺失 数据 的 向 量 ;否则 (na.rm = FALSE, 缺 省 值 ) 不 能 处 理 带 有 缺失 数据 的 
向 量 ， 如 

> x.na <- c(75.0,64.0,47.4,NA,66.9,62.2,62.2,58.7,63.5) 

> median(x.na) 

[1] NA 

> median(x.na, na.rm = TRUE) 


[1] 62.85 


4. 百 分 位 数 


百 分 位 数 (percentile) 是 中 位 数 的 推广 ， 将 数据 按 从 小 到 大 的 排列 后 ， 对 于 
0 <<p<1, 它 的 p 分 位 点 定义 为 








| T (Inp]+1)) 当 np 不 是 整数 时 ， 人 
7ip 一 1 
7 (Zop) 十 Tnptl)) ) 当 Np 是 整数 时 ， 


其 中 lnp| 表示 np 的 整数 部 分 . 
2 分 位 数 又 称 为 第 100p 百 分 位 数 . 大 体 上 整个 样本 的 100p 的 观测 值 不 超过 
2 分 位 数 . 如 0.5 分 位 数 mos( 第 50 百 分 位 数 ) 就 是 中 位 数 m。. 在 实际 计算 中 ， 
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0.75 分 位 数 与 0.25 分 位 数 (第 75 百 分 位 数 与 第 25 百 分 位 数 ) 比较 重要 ， 它 们 分 
别称 为 上 、 下 四 分 位 数 ， 并 分 别 记 为 @s = mo.75, Qi = m0.25. 
在 R 软件 中 ， quantile() 函数 计算 观测 量 的 百 分 位 数 ， 如 
> W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
> quantile(w) 
0%p 25% 50% 75% 100% 
47.40 57.85 63.50 66.75 75.00 
quantile() 函数 的 一 般 使 用 格式 为 
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE， 
names = TRUE, type = 7, ...) 
其 中 x 是 由 数值 构成 的 向 量 。 probs 是 给 出 相应 的 百 分 位 数 , 缺 省 时 是 0 、3 
上 3、 、1. na.rm 是 逻辑 变量 ， 当 na.rm = TRUE 时 ,可 处 理 缺 失 数 据 ， 其 余 见 
帮助 . 
如 果 打 算 给 出 0%, 20%, 40%, 60%, 80% 和 100% 的 百 分 位 数 ， 则 选择 
> quantile(w, probs = seq(0, 1, 0.2)) 
0% 20% 40% 60% 80% 100% 
47.40 56.98 62.20 64.00 67.32 75.00 


3.1.2 分散 程度 的 度量 


表示 数据 分 散 (或 变异 ) 程度 的 特征 量 有 方差 、 标 准 差 、 极 差 、 四 分 位 极 差 、 
变异 系数 和 标准 误 等 . 

1. 方差 、 标 准 差 与 变异 系数 

方差 (variance) 是 描述 数据 取 值 分 散 性 的 一 个 度量 . 样本 方差 (sample vari- 
ance) 是 样本 相对 于 均值 的 偏差 平方 和 的 平均 ， 记 为 5*, 即 


8 六 ( 风 三 到 (3.4) 





其 中 开 是 样本 的 均值 . 
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样本 方差 的 开 方 称 为 样本 标准 差 (standard deviation), 记 为 s, 即 




















二 (3.5) 
变异 系数 是 刻 划 数据 相对 分 散 性 的 一 种 度量 ， 记 为 CV， 
CV = 100 x =(%), (3.6) 
它 是 一 个 无 量 纲 的 量 ， 用 百分数 表示 . 
与 分 散 程度 有 关 的 统计 量 还 有 下 列 数字 特征 ; 
样本 校正 平方 和 
CSS = 》 (2 一列” (3.7) 
样本 未 校正 平方 和 ， 
USS= 》 到 : (3.8) 


在 R 软件 中 , 若 x 是 由 样本 构成 的 向 量 ， 则 var (x) 计算 样本 方差 ， sd (x) 
计算 样本 标准 差 ， 即 sd(x) = Vvar(x). 例如 ， 对 于 15 名 学 生 的 体重 数据 ， 有 
> Var(VW) 
[1] 56.47257 
> sd(w) 
[1] 7.514823 
方差 函数 var() 和 标准 差 函 数 sd() 的 使 用 格式 为 
var(x, y = NULL, na.rm = FALSE, use) 
sd(x, na.rm = FALSE) 
其 中 x 是 数值 向 量 、 矩 阵 或 数据 框 ， na.rm 是 逻辑 变量 , 当 na.rm = TRUE 时 ， 
可 处 理 缺 失 数 据 ， 其 余 见 帮助 . 
与 方差 函数 var() 相关 的 函数 还 有 : ”cov() 一 求 协 方差 窍 阵 ， cor() 一 求 
相关 甜 阵 ， 这 两 个 函数 将 在 后 面 介绍 . 
对 于 变异 系数 、 校 正平 方 和 、 未 校正 平方 和 等 指标 ,需要 编写 简单 的 程序 . 
例如 ， 对 于 15 名 学 生 的 体重 数据 
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> cv <- 100*sd(w)/mean(w); cv 
[1] 12.05071 

> css <- sum((w-mean(w)) “2); css 
[1] 790.616 

> uss <- sum(w 2); uss 


[1] 59122.16 
2. 极 差 与 标准 误 
样本 极 差 ( 记 为 R) 的 计算 公式 为 
R= zn 一 z0 = max(z) — min(z), (3.9) 


其 中 zz 是 由 样本 构成 的 向 量 . 样本 极 差 是 描述 样本 分 散 性 的 数字 特征 . 当 数 据 越 
分 散 ， 其 极 差 越 大 . 
样本 上 、 下 四 分 位 数 之 差 称 为 四 分 位 差 〈 或 半 极 差 )， 记 为 局 , 即 
Ri = Q3— 1, (3.10) 


它 也 是 度量 样本 分 散 性 的 重要 数字 特征 , 特别 对 于 具有 异常 值 的 数据 ， 它 作为 分 
散 性 具有 稳健 性 ， 因 此 它 在 稳健 性 数据 分 析 中 具有 重要 作用 . 
样本 标准 误 ( 记 为 sm) 定义 为 


(3.11) 





对 于 样本 极 差 与 样本 标准 误 ， 可 以 简单 编程 方法 计算 . 
3.1.3 ”分 布 形状 的 度量 


在 第 一 章 的 1.3.5 节 介 绍 过 总 体 的 偏 度 (skewness) 系数 和 峰 度 (kurtosis) 系 
数 ， 这 里 介绍 样本 的 偏 度 系数 和 峰 度 系数 . 


1. 偏 度 系 数 
样本 的 偏 度 系 数 ( 记 为 91) 的 计算 公式 为 


EN J 
91 二 (nC—1)(n— 2)s 2 ;一 也 ) ns (3.12) 
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其 中 s 是 标准 差 ， 3 是 样本 3 阶 中 心 矩 ， 即 jw3 = + D(x; 一 2)3. 


Ws 


偏 度 系数 是 刻 划 数据 的 对 称 性 指标 ,关于 均值 对 称 的 数据 其 偏 度 系数 为 0， 
右 侧 更 分 散 的 数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系数 为 负 . 


2. 峰 度 系数 
样本 的 峰 度 系数 ( 记 为 92) 的 计算 公式 为 


局 n(n+t1) S Ns 
ey 


Es 
(mo 1)(n—2)(n— 3)s 人 (3.13) 


其 中 s 是 标准 差 ， ju 是 样本 4 阶 中 心 矩 ， 即 p14 = tn 3) 


当 数 据 的 总 体 分 布 为 正 态 分 布 时 ， 峰 度 系数 近似 为 0; 当 分 布 较 正 态 分 布 的 
尾部 更 分 散 时 ， 峰 度 系 数 为 正 ， 和 否则 为 负 ， 当 峰 度 系数 为 正 时 ， 两 侧 极端 数据 较 
多 ; 当 峰 度 系 数 为 负 时 ， 两 侧 极端 数据 较 少 . 

最 后 编写 一 个 统计 的 函数 (程序 名 : ”data_outline.R), 计算 样本 的 各 种 描 
述 性 统计 量 . 

data_outline <- function(x){ 

n <- length(x) 

m <- mean(x) 

V <- var(x) 

s <- sd(x) 

me <- median(x) 

cv <- 100*s/m 

css <- sum((x-m) “2) 

uss <- sum(x°2) 

R <- max(x)-min(x) 

R1 <- quantile(x,3/4)-quantile(x,1/4) 
sm <- s/sqrt(n) 

g1 <- n/((n-1)*(n-2))*sum( (x-m) “3)/s°3 
g2 <- (Cn*(n+1))/((n-1)*(n-2)*(n-3))*sum( (x-m)“ 4)/s°4 
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- (3*(n-1)°2)/((n-2)*(n-3))) 
data.frame(N=n, Mean=m, Var=v, std_dev=s, 
Median=me, std_mean=sm, CV=cv, CSS=css, USS=uss, 
R=R, R1=R1, Skewness=g1l, Kurtosis=g2, row.names=1) 
} 
函数 的 输入 变量 x 是 数值 型 向 量 ， 由 样本 构成 .函数 的 返回 值 是 数据 框 ， 包 
含 以 下 指标 : N 样本 的 个 数 ; Mean 样本 均值 ; Var 样本 方差 。 std_dev 样本 
标准 差 ， Median 样本 中 位 数 ， std_mean 样本 的 标准 误 ; CV 样本 的 变异 系数 ; 
CSS 样本 校正 平方 和 ; USS 样本 未 校正 平方 和 ; BR 样本 极 差 ; R1 样本 半 极 差 ; 
Skewness 样本 峰 度 系 数 ; Kurtosis 样本 偏 度 系数 . 
例 3.2 计算 例 3.1 中 15 位 学 生 的 体重 的 各 种 统计 量 . 
解 : 将 编 好 的 程序 调 入 内 存 ( 见 第 二 章 中 输入 及 代码 )， 输入 数据 并 计算 得 
到 相应 的 结果 . 
> Source("dqata_out1line.R"D) 
> W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 


> data_outline(w) 


N Mean Var std_dev Median std_mean CV 
1 15 62.36 56.47257 7.514823 63.5 1.940319 12.05071 
CSS USS R RI1 Skewness Kurtosis 


1 790.616 59122.16 27.6 8.9 -0.4299561 0.09653947 


3.2 ”数据 的 分 布 


数据 的 数字 特征 刻 划 了 数据 的 主要 特征 ,而 要 对 数据 的 总 体 情况 作 全 面 的 描 
述 ， 就 要 研究 数据 的 分 布 . 对 数据 分 布 的 主要 描述 方法 有 直方 图 、 荃 叶 图 和 数据 
的 理论 分 布 即 总 体 分 布 . 数据 分 析 的 一 个 重要 问题 是 要 研究 数据 是 否 来 自 正 态 总 
体 ， 这 是 分 布 的 正 态 性 检验 的 问题 . 
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3.2.1 “分 布 函数 
在 第 一 章 给 出 了 分 布 函数 (x) 的 定义 (定义 1.5) 、 分 布 律 (定义 1.7), 即 
P{X=7x}=pk, k=1,2,..., 


和 概率 密度 函数 f(x) 的 定义 (定义 1.8), 以 及 概率 密度 函数 f(z) 与 分 布 函 数 
了 (zx) 的 关系 


| f(t)dt, ~oo0<7z<o0. 


并 给 出 了 一 些 典 型 的 分 布 ， 如 正 态 分 布 、 Poisson 分 布 等 . 
在 R 软件 中 ， 提 供 了 计算 这 些 典型 分 布 的 分 布 函数 、 分 布 律 或 概率 密度 函 
数 ， 以 及 分 布 函 数 的 反 函 数 的 各 种 函数 . 
例如 ,考虑 正 态 分 布 , 设 / 是 均值 ，o? 是 方差 .对 于 任意 的 变量 x, 其 分 布 
函数 为 
F(x) = . | ep {入 t= pro mu, sigma), 


270 20 








其 中 函数 pnorm 是 R 软件 中 计算 分 布 函数 ( 正 态 分 布 ) 的 函数 ， mu 是 均值 /， 
sigma 是 标准 差 o. 相应 的 概率 密度 函数 为 








] ,2 
一 ep 人 -2 上 -aeme mu, sigma), 


其 中 函数 dnorm 是 R 软件 中 计算 概率 密度 函数 ( 正 态 分 布 ) 的 函数 . 
计算 标准 正 态 分 布 的 上 a/2 (a = 0.05) 分 位 点 ， 其 计算 公式 为 


Za/2 = qnorm(1-0.025, 0,1) = 1.959964. 


其 中 函数 qnorm 是 R 软件 中 计算 下 分 位 点 的 函数 . 
产生 100 个 标准 正 态 态 分 布 的 随机 数 
r <- rnorm(100, 0, 1) 
其 中 函数 rnorm 是 R 软件 中 生成 ( 正 态 分 布 ) 随机 数 的 函数 ， 参 数 0，1 可 以 缺 
省 . 
关于 正 态 分 布 函数 dnorm() 、pnorm() 、qnorm() 和 rnorm() 的 使 用 方法 


是 
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dnorm(x, mean=0, sd=1, log = FALSE) 
pnorm(dq, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 
qnorm(p, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) 
rnorm(n, mean=0, sd=1) 
其 中 x,q 是 由 数值 型 变量 构成 的 向 量 . p 是 由 概率 构成 的 向量 n 是 产生 随 
机 数 的 个 数 . mean 是 要 计算 的 正 态 分 布 的 均值 ， 缺 省 值 为 0. sd 是 要 计算 的 正 
态 分 布 的 标准 差 ， 缺 省 值 为 1. 函数 dnorm() 的 返回 值 是 正 态 分 布 的 概率 密度 函 
数 . 函数 pnorm() 的 返回 值 是 正 态 分 布 的 分 布 函数 .函数 qnorm() 的 返回 值 是 
给 定 概 率 p 后 的 下 分 位 点 .函数 rnorm() 的 返回 值 是 由 n 个 正 态 分 布 随机 数 构 
成 的 向 量 . 
log，log.Pp 是 逻辑 变量 ， 当 它 为 真 (TRUE) 时 ， 洱 数 的 返回 值 不 再 是 正 态 分 
布 , 而 是 对 数 正 态 分 布 ，lower .tail 是 逻辑 变量 , 当 它 为 真 (TRUE, 缺 省 值 ) 时 ， 
分 布 函数 的 计算 公式 为 
RT) 芝 忆 
当 Ilower .tail = FALSE 时 ， 分 布 函 数 的 计算 公式 为 
F(z)= P{X >2 


再 看 一 个 离散 随机 变量 计算 函数 的 例子 ， 如 Poisson 分 布 . Poisson 分 布 的 
使 用 格式 为 
dpois(x, lambda, log = FALSE) 
ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) 
qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) 
rpois(n, lambda) 
其 中 lambda 是 Poisson 分 布 的 参数 入. 其余 参数 的 意义 与 上 面 介 绍 的 函数 ( 正 态 
分 布 ) 中 参数 的 意义 相同 . 
注意 ， 由 于 Poisson 分 布 是 离散 分 布 ， 当 x 是 整数 上 时， 其 意义 为 
Me 
Kk! 
当 x 不 是 整数 时 ， dpois (x，lambda)=0. 对 于 函数 ppois(), 无 论 x 是 否 为 整 


P{X =k} = 





= dpois(k, lambda), 


= 
F(z) = 1 = Ppois(x, lambda). 
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给 定 概率 p, qpois(p，lambda) 的 返回 值 是 P{X = 上 } 二 2 的 最 小 的 整数 上 
表 3.1 列 出 了 各 种 常用 的 分 布 函数 ， 概 率 
函数 或 分 布 律 ， 以 及 R 中 的 名 称 和 调用 函数 用 到 的 参数 ， 


表 3.1: 分 布 函数 或 分 布 律 
分 布 R 中 的 名 称 附加 参数 


beta shapel, shape2, ncp 
binomial size, prob 
Cauchy location, scale 
chi-squared df ncp 
exponential Tate 

F df1, df2, ncp 
gamma gamma shape, scale 
geometric geom prob 
hypergeometric hyper m, n, k 
log-normal Inorm meanlog, sdlog 
logistic logis location, scale 
negative binomial nbinom size, prob 
normal norm mean, sd 
Poisson pois lambda 
Student’s t t df ncp 
Uniform unif min, max 
Weibull weibull shape, scale 
Wilcoxon wilcox m,n 








在 表 3.1 所 列 的 分 布 中 ， 加 上 不 同 的 前 缀 表示 不 同 的 意义 ， 
。 d 一 概率 密度 函数 f(z), 或 分 布 律 px; 
。 Pp 一 分布 函数 F(z); 
。 4 一 分 布 函 数 的 反 函 数 F  (D), 即 给 定 概率 p 后 ， 求 其 下 分 位 点 ; 
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e。 r 一 仿真 (产生 相同 分 布 的 随机 数 ). 
3.2.2 ”直方 图 、 经 验 分 布 图 与 QQ 图 


1. 直方 图 


对 于 数据 分 布 ， 常 用 直方 图 (histogram) 进行 描述 ， 将 数据 取 值 的 范围 分 成 
知 干 区 间 (一 般 是 等 间隔 的 ), 在 等 间隔 的 情况 下 ， 每 个 区 间 长 度 称 为 组 距 . 考察 
数据 落 入 每 一 区 间 的 频数 与 频率 , 在 每 个 区 间 上 画 一 个 矩形 ， 它 的 宽度 是 组 距 ， 
已 的 高 度 可 以 是 频数 、 频 率 或 频率 / 组 距 ， 在 高 度 是 频率 / 组 距 的 情况 下 ,每 一 
和 矩形 的 面积 恰 是 数据 落 入 区 间 的 频率 ,这 种 直方 图 可 以 佑 计 总 体 的 概率 密度 . 组 
距 对 直方 图 的 形态 有 很 大 的 影响 ， 组 距 太 小 ， 每 组 的 频数 较 少 ， 由 于 随机 性 的 影 
响 ， 邻 近 区 间 上 的 频数 可 能 很 大 ， 组 距 太 大 ， 直 方 图 所 反映 的 形态 就 不 灵敏 . 

在 R 软件 中 ， 用 函数 hist() 画 出 样本 的 直方 图 ， 其 格式 为 


hist (x) 





或 
hist(x, breaks = "Sturges", freq = NULL, probability = !freq, 
include.lowest = TRUE, right = TRUE， 
density = NULL, angle = 45, col = NULL, border = NULL, 
main = paste("Histogram of'" , xname), 
xlim = range(breaks), ylim = NULL, 
xlab = xname, ylab, 
axes = TRUE, plot = TRUE, labels = FALSE, 
nclass = NULL, ...) 
其 中 x 是 由 样本 构成 的 向 量 . breaks 规定 直方 图 的 组 距 ， 由 以 下 几 种 形式 给 
出 : 
。 向 量 ， 给 出 直方 图 的 起 点 、 终 点 与 组 距 . 
。 数 ， 定 义 直方 图 的 组 距 . 
。 字符 串 ， ( 见 缺 省 状态 ). 
。 孔 数 ， 计 算 组 距 的 宽度 . 
freq 是 逻辑 变量 
。 TRUE 绘 出 频率 直方 图 ; 


140 第 三 章 数据 描述 性 分 析 


e counts 绘 出 频率 直方 图 ; 
。 FALSE 绘 出 密度 直方 图 
probability 是 逻辑 变量 与 freq 相反 ， 是 与 S-PLUS 相 兼 容 的 参数 ， 
。 TRUE 绘 出 密度 直方 图 ; 
。FALSE 绘 出 频率 直方 图 
col 表示 直方 图 中 填充 的 颜色 . plot 是 逻辑 变量 ; 
。TRUE 表示 给 出 直方 图 ; 
。 FALSE 表示 列 出 绘 出 直方 图 的 各 种 结果 ( 并 不 绘图 ). 
其 它 参 数 见 帮助 文件 . 


2. 核 密 度 估 计 函 数 


与 直方 图 相配 套 的 是 核 密度 估计 (kernal density estimate) 函数 density()， 
其 目的 是 用 已 知 样本 ,估计 其 密度 ， 它 的 使 用 方法 是 : 
density(x, bw = "nrd0", adjust = 1, 
kernel = c("gaussian", "epanechnikov", "rectangular", 
"triangular", "biweight", "cosine", "optcosine"), 
window = kernel, width, 
give.Rkern = FALSE, 
n = 512, from, to, cut = 3, na.rm = FALSE) 
其 中 x 是 由 样本 构成 的 向 量 . bw 是 人 带宽， 可 选择 . 当 bw 为 省 略 值 时 ， R 软件 
会 画 出 光滑 的 曲线 ,其 它 参 数 见 帮助 文件 . 
例 3.3 绘 出 例 3.1 中 15 位 学 生 的 体重 的 直方 图 和 核 密度 估计 图 ， 并 与 正太 分布 
的 概率 密度 函数 作对 照 . 
解 : 写 出 R 程序 (程序 名 : exam0303.R ) 
W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
hist(w, freq = FALSE) 
lines(density(w), col = "blue'") 
x <- 44:76 


lines(x, dnorm(x, mean(w), sd(w)), col = "red') 


执行 后 绘 出 直方 图 和 密度 估计 曲线 和 正 态 分 布 的 概率 密度 曲线 ， 如 图 3.1 所 示 . 
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图 3.1: 学 生体 重 的 直方 图 、 窗 度 佑 计 曲 线 与 正 态 分 布 密度 曲线 





注意 到 ， 密 度 佑 计 曲 线 与 正 态 分 布 的 概率 密度 曲线 还 是 有 一 定 的 差别 的 , 
结合 直方 图 和 密度 估计 曲线 来 进一步 分 析 例 3.2 中 统计 量 的 意义 . 如 偏 度 小 
于 0, 直方 图 偏 右 等 . 
3. 经 验 分 布 
直方 图 的 制作 适合 于 总 体 为 连续 型 分 布 的 场合 . 对 于 一 般 的 总 体 分 布 ， 若 要 
估计 它 的 总 体 分 布 函 数 F(z), 可 用 经 验 分 布 函数 (empirical distribution function) 
作 估计 .在 第 一 章 的 1.5.3 节 给 出 了 经 验 分 布 的 定义 ( 见 式 (1.87)), 在 R 中 , 用 
函数 ecdf () 绘 出 样本 的 经 验 分 布 函数 ， 其 用 法 是 : 
ecdf (x) 
plot(x, ..., ylab="Fn(x)", verticals = FALSE， 





col.0iline = "gray70") 
其 中 ,在 函数 ecdf () 中 的 x 是 由 观察 值得 到 的 数值 型 向 量 , 而 在 函数 plot () 中 的 
x 是 由 函数 ecdf () 生成 的 癌 量 .，verticals 是 逻辑 变量 , 当 verticals = TRUE 
表示 画 竖 线 ， 否 则 (FALSE, 缺 省 值 ) 不 画 坚 线 . 
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例 3.4 绘 出 例 3.1 中 15 位 学 生 的 体重 的 经 验 分 布 图 和 相应 的 正 态 分 布 图 . 

解 : 写 出 R 程序 ( 程序 名 :exam0304.R ) 

plot(ecdf (w) ,verticals = TRUE, do.p = FALSE) 

X <- 44:78 

lines(x, pnorm(x, mean(w), sd(w))) 
其 中 do.p 是 逻辑 变量 ， 当 do.p = FALSE 表示 不 画 点 处 的 记号 ; 否则 (TRUE, 缺 
省 值 ) 画 记号 . 

执行 后 绘 出 经 验 分 布 图 和 正 态 分 布 曲线 ， 如 图 3.2 所 示 . 
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图 3.2: 学 生体 重 的 经 验 分 布 图 和 正 态 分 布 曲线 


4. QQ 

不 论 是 直方 图 还 经 验 分 布 图 , 要 从 比较 上 鉴别 样本 是 否 近 似 于 某 种 类 型 的 分 
布 是 困难 的 ，QQ 图 可 以 帮助 我 们 鉴别 样本 的 分 布 是 否 近 似 于 某 种 类 型 的 分 布 . 

现 假定 总 体 为 正 态 分 布 N(1,o?), 对 于 样本 zt za …,znw 其 顺序 统计 量 是 
20)20) 2 设 B(z) 是 标准 正 态 分 布 N(0,1) 的 分 布 函数 ， 理 -1 (z) 是 反 函 
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数 ， 对 应 正 态 分 布 的 QQ 图 是 由 以 下 的 点 


0 
(FR) ,oo)， ey (3.14) 


构成 的 散 点 图 若 样 本 数据 近似 于 正 态 分 布 ， 在 QQ 图 上 这 些 点 近似 地 在 直线 





2 一 OZ 十 内 


附近 ， 此 直线 的 斜率 是 标准 差 o, 截 距 是 均值 人/ 所 以 利用 正 态 QQ 图 可 以 作 直 
观 的 正 态 性 检验 . 若 正 态 QQ 图 上 的 点 近似 地 在 一 条 直线 附近 ， 可 以 认为 样本 数 
据 来 自 正 态 分 布 总 体 . 
在 R 软件 中 ,函数 qqnorm() 和 qqline() 提供 了 画 正 态 QQ 图 和 相应 直线 
的 方法 .其 使 用 方法 是 : 
qqnorm(y, ...) 
qqnorm(y, ylim, main = "Normal Q-Q Plot", 
xlab = "Theoretical Quantiles", 
ylab = "Sample Quantiles", plot.it = TRUE, 
datax = FALSE, ...) 
qqline(y, datax = FALSE, ...) 
qqplot (x, y, plot.it = TRUE, xlab = deparse(substitute(x)), 
ylab = deparse(substitute(y)), ...) 
其 中 x 是 第 一 列 样本 . y 是 第 二 列 样本 或 只 有 此 列 样本 . xlab, ylab, main 
是 图 标 . 其 它 参 数 见 帮 助 文件 . 
例 3.5 绘 出 例 3.1 中 15 位 学 生 的 体重 的 正 态 QQ 图 ， 并 从 直观 上 鉴别 样本 数据 
是 否 来 自 正 态 分 布 总 体 ， 
解 : 写 出 R 程序 (程序 名 : exam0305.R ) 
W<- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 
66.6，64.0，57.0，69.0，56.9，50.0，72.0) 
qqnorm(w); qqline(w) 
执行 后 绘 出 正 态 QQ 图 ， 如 图 3.3 所 示 . 
从 正 态 QQ 图 (图 3.3 ) 来 看 ,样本 的 数据 基本 上 可 以 看 成 来 自 正 态 总 体 . 
对 于 对 数 正 态 、 指 数 等 分 布 也 可 以 作 相 应 的 QQ 图 , 用 以 鉴别 样本 数据 是 否 
来 自 某 一 类 型 的 总 体 分 布 . 
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Normal Q-Q Plot 





Sample Quantiles 














Theoretical Quantiles 


图 3.3: 学 生体 重 的 正 态 QQ 图 
3.2.3 ” 茎 叶 图 、 箱 线 图 及 五 数 总 括 


1. 茎 叶 图 


与 直方 图 比较 ， 茎 叶 图 更 能 细致 地 看 出 数据 分 布 的 结构 . 下 面 用 具体 的 例子 
来 说 明 茎 叶 图 的 意义 . 
例 3.6 某 班 有 31 名 学 生 ， 某 门 课 的 考试 成 绩 如 下 : 
25 45 50 54 55 61 64 68 72 75 75 
78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 
做 出 其 茎 叶 图 . 
解 : 在 R 软件 中 , 用 stem() 函数 作 茎 叶 图 ， 其 命令 (程序 名 exam0306.R) 
如 下 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, 
87, 89, 89, 89, 90, 91, 91, 92,100) 
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> stem(x) 

The decimal point is 1 digit(s) to the right of the | 
2 | 5 
3 | 
415 
5 | 045 
6 | 148 
7 | 25589 
8 | 1344456667999 
9 | 0112 

10 | 0 


下 面 对 荃 叶 图 给 出 相应 的 解释 . 
第 一 个 数 25 的 十 位 为 2, 个 位 为 5. 以 个 位 为 单位 ， 将 25 用 | 号 分 开 : 
25 一 2 15 
每 一 个 数 都 可 以 这 样 处 理 ， 因 此 ， 茎 叶 图 将 十 位 数 2,3,4,5,6,7,8,9,10 按 纵 列 从 上 
到 下 排列 ， 在 纵 列 右 侧 从 上 到 下 画 一 坚 线 ， 再 在 坚 线 右 侧 写 上 原始 数据 的 相应 的 
个 们 数 ， 全 如， 在 十 位 数 5 的 竖 线 右 侧 依 次 应 是 0,4,5, 即 
5 | 045 

它们 分 别 对 应 着 50, 54, 55 这 三 个 数据 .又 如 在 十 位 数 3 的 坚 线 的 右 侧 ， 因 为 从 
原始 数据 看 ， 没 有 对 应 的 数据 可 填 ， 可 以 空 着 . 

在 蕉 叶 图 中 ， 纵 轴 为 测定 数据 ， 横 轴 为 数据 频数 ,数据 的 十 位 数 部 分 表示 
“ 茎 ， 作 为 纵 轴 的 刻度 ;个 位 数 部 分 作为 “ 叶 “， 显示 频数 的 个 数 ， 作 用 与 直方 图 
的 直方 类 似 . 

stem() 函数 的 使 用 方法 是 : 

stem(x, scale = 1, width = 80, atom = 1e-08) 
其 中 x 是 数据 向 量 . scale 控制 绘 出 茎 叶 图 的 长 度 ， ”width 绘图 的 宽度 . 
atom 是 容 差 . 

如 果 选 择 scale = 2, 即将 10 个 个 位 数 分 成 两 段 ，0 ~ 4 为 一 段 ，5 ~ 9 为 

另 一 段 ， 看 下 面 的 计算 结果 


> stem(x, scale = 2) 











146 第 三 章 数据 描述 性 分 析 


The decimal point is 1 digit(s) to the right of the | 
2 | 5 


5589 
13444 
56667999 
0112 


‘OO OO oo ON oo 人 WW wm 


LD 


0 
如 果 选 择 scale = 1/2, 即将 10 个 个 位 数 分 成 1/2 段 ， 即 20 个 数 为 一 段 ， 如 


> stem(x, scale = .5) 


The decimal point is 1 digit(s) to the right of the | 


2 | 5 
4 | 5045 
6 | 14825589 
8 | 13444566679990112 
10 | 0 
例 3.7 绘 出 例 3.1 中 15 位 学 生 的 体重 的 茶叶 国 . 
解 : 
> stem(w) 


The decimal point is 1 digit(s) to the right of the | 
4 17 
5 | 0779 
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6 | 22444779 

7 | 25 
注意 到 : 为 了 使 数据 分 析 简 化 ， 将 原始 数据 小 数 点 后 数值 四 舍 五 入 . 
2. 箱 线 图 


茎 叶 图 是 探索 性 数据 分 析 所 采用 的 重要 方法 . 而 箱 线 图 确 能 直观 简洁 地 展现 
数据 分 布 的 主要 特征 .在 R 软件 中 ， 用 boxplot () 函数 作 箱 线 图 . 
例 3.8 绘 出 例 3.6 学 生 考 试 成 绩 的 箱 线 图 . 
解 : 输入 命令 
> boxplot (x) 
得 到 箱 线 图 ， 如 图 3.4 所 示 . 























oO 





图 3.4: 学 生成 绩 的 箱 线 图 


在 箱 线 图 中 ,上 (Qs) 下 (Q1) 四 分 位 数 分 别 确定 出 中 间 箱 体 的 项 部 主 底部 . 
箱 体 中 间 的 粗 线 是 中 位 数 (me。) 所 在 的 位 置 . 由 箱 体 向 上 下 伸 出 的 垂直 部 分 称 为 
“触须 ,表示 数据 的 散布 范围 ， 最 远 点 为 1.5 倍 四 分 位 数 间距 .超出 此 范围 的 点 
称 为 异常 值 点 ， 异 常 值 点 用 “o” 号 表示 . 
boxplot() 函数 的 使 用 方法 有 三 种 形式 ， 第 一 种 格式 为 
boxplot (x, ...) 


148 第 三 章 数据 描述 性 分 析 











其 中 x 是 由 数据 构成 的 数值 型 向 量 , 或 者 是 列表 , 或 者 是 数据 框 . 上 面 例子 的 使 
用 方法 就 是 这 种 形式 ， 第 二 种 形式 为 
boxplot (formula, data = NULL, ..., subset, na.action = NULL) 

其 中 formula 是 公式 , 如 y ”grp, 这 里 y 是 由 数据 构成 的 数值 型 向 量 ， grp 是 
数据 的 分 组 ， 通 常 是 因子 . data 是 数据 结构 ， 第 三 种 形式 为 
boxplot(x, ..., range = 1.5, width = NULL, varwidth = FALSE, 

notch = FALSE, outline = TRUE, names, plot = TRUE， 

border = par("fg"), col = NULL, log = "", 








pars = list(boxwex = 0.8, staplewex = 0.5, outwex = 0.5), 


horizontal = FALSE, add = FALSE, at = NULL) 


其 中 x 的 意义 与 第 一 种 情况 相同 ，range 是 “触须 ”的 范围 ( 缺 省 值 为 1.5). notch 
是 逻辑 变量 ， 当 notch = TRUE( 缺 省 值 为 FALSE) 时 ， 画 出 的 箱 线 图 带 有 切口 . 
outline 是 逻辑 变量 ， 当 outline = FALSE( 缺 省 值 为 TRUE) 时 ， 不 标明 异常 值 
点 . col 是 颜色 变量 ， 赋 给 不 同 的 值 ， 将 绘 出 不 同 颜色 的 箱 线 图 horizontal 
是 逻辑 变量 ， 当 horizontal = TRUE( 缺 省 值 为 FALSE) 时 , 将 把 箱 线 图 绘 成 水 平 
状 . add 是 逻辑 变量 ， 当 add = TRUE 时 , 在原 图 上 画图 ; 否则 (FALSE, 缺 省 值 ) 
替换 上 一 张 图 ， 其 余 参 数 的 意义 在 线 帮助 文件 . 
可 以 用 boxplot() 函数 作 两 样本 的 均值 检验 , 考查 两 样本 的 均值 是 否 相同 . 
例 3.9 已 知 由 两 种 方法 得 到 如 下 数据 : 
Method A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
Method B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
问 两 组 数据 的 均值 是 否 相 同 ? 
解 : 输入 数据 ,调用 boxplot() 函数 (程序 名 ， exan0309.B) 画 出 两 组 数据 
的 箱 线 图 
A <- c(79.98，80.04，80.02，80.04，80.03，80.03，80.04， 
79.97，80.05，80.03，80.02，80.00，80.02) 
B <- c(80.02，79.94，79.98，79.97，79.97，80.03，79.95， 
79.97) 


boxplot (A, B, notch=T, names=c(’A’, ’B’), col=c(2,3)) 


~- 
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二 一 := 一 = 一 


79.94 79.96 79.98 80.00 80.02 80.04 
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图 3.5: 两 组 数据 的 箱 线 图 


得 到 箱 线 图 ， 如 图 3.5 所 示 . 

从 图 形 可 以 看 出 ， 两 组 数据 的 均值 是 不 相同 的 ， 第 一 组 值 高 于 第 二 组 . 我 们 
将 第 五 章 将 给 出 两 样本 均值 检验 的 统计 方法 . 

注意 到 : 由 于 使 用 了 参数 notch = T, 画 出 的 箱 线 图 带 有 切口 . col = c(2,3)， 
所 以 关于 A 的 箱 线 图 是 红色 (2 表示 红色 ), 关于 B 的 箱 线 图 是 绿色 (3 表示 红 
绿 ), 也 可 以 将 参数 写成 col = c(’red’，’green’). 

在 R 软件 中 ， InsectSprays 是 R 提供 的 数据 框 ， 它 是 由 两 列 数据 构成 ， 
一 列 叫 count， 由 数据 构成 ， 另 一 叫 spray， 由 因子 构成 , 共有 A, B, C, D, Eb, 
F 六 个 水 平 . 现 画 出 数据 count 在 这 六 个 水 平 下 的 箱 线 图 ， 其 命令 (程序 名 : 
figure0306.R) 如 下 : 


boxplot (count spray, data = InsectSprays, 


col = "lightgray") 


boxplot (count spray, data = InsectSprays, 


notch = TRUE, col = 2:7, add = TRUE) 
第 一 个 命令 是 画 出 矩形 的 箱 线 图 , 而 且 图 中 的 颜色 是 青 灰 色 (col="lightgray"). 
二 个 命令 表示 画 出 的 箱 线 图 带 有 切口 (notch = TRUE), 而 且 每 一 个 箱 线 图 用 一 
种 颜色 (col = 2:7) 画 出 ,并 将 这 次 画 的 图 和 谷 加 到 上 一 张 图 上 (add = TRUE), 其 
图 形 如 图 3.6 所 示 . 
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图 3.6: 不 同 参 数 下 箱 线 图 的 倒 加 


由 上 述 例子 可 以 看 出 ， 各 种 画 箱 线 图 的 绘图 方法 可 以 混合 使 用 . 
3. 五 数 总 括 
在 探索 性 数据 分 析 中 ， 认 为 最 有 代表 性 的 、 能 反映 数据 重要 特征 的 五 个 数 ， 
中 位 数 me, 下 四 分 位 数 Q1, 上 四 分 位 数 @a, 最 小 值 min 和 最 大 值 max. 这 五 个 
数 称 为 样本 数据 的 五 数 总 括 . 
在 R 软件 中 ， 函 数 fivenum() 计算 样本 的 五 数 总 括 ， 使 用 格式 为 
fivenum(x, na.rm = TRUE) 
其 中 x 是 样本 数据 ， na.rm 是 逻辑 变量 ， 当 na.rm = TRUE( 缺 省 值 ) 时 ， 在 计算 
五 数 总 括 之 前 ， 所 有 的 NA 和 NAN 数据 将 被 去 掉 . 
例 3.10 求 例 3.6 学 生 考 试 成 绩 的 五 数 总 括 . 
解 : (程序 名 : exam0310 .BR) 
> x<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, 
78, 79, 81, 83, 84, 84, 84, 85, 86，86,，86, 
87，89，89，89，90，91，91，92，100) 
> fivenum(x) 


[1] 25 70 84 88 100 
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3.2.4 ” 正 态 性 检验 与 分 布 拟 合 检验 


上 面 介绍 的 荃 叶 图 、 箱 线 图 等 对 随机 性 、 确 定性 的 数据 都 有 用 ， 其 特点 是 图 
像 生 动 直 观 . 在 直方 图 、 经 验 分 布 函数 介绍 中 ， 曾 提 到 在 总 体 存在 某 种 类 型 的 分 
布 时 ， 配 一 条 合适 的 总 体 概率 密度 曲线 或 总 体 分 布 函 数 曲 线 . 然而 ， 所 配 曲 线 是 
和 否 合适 ， 是 需要 进行 统计 检验 的 , 有 关 的 统计 检验 方法 将 在 第 五 章 中 介绍 ， 这 里 
只 简单 介绍 两 种 检验 方法 ， 一 种 方法 是 关于 正 态 分 布 的 检验 ， 另 一 种 方法 是 关于 

1. 正 态 性 W 检验 方法 

利用 Shapiro-Wilk ( 夏 皮 罗 - 威 尔 克 ) W 统计 量 作 正 态 性 检验 ， 因 此 称 这 种 
检验 方法 为 正 态 W 检验 方法 . 

在 R 软件 中 ,函数 shapiro.test() 提供 W 统计 量 和 相应 的 p 值 , 当 p 值 
小 于 某 个 显著 性 水 平 a( 比 如 0.05), 则 认为 样本 为 不 是 来 自 正 态 分 布 的 总 体 ;和 否 
则 承认 样本 来 自 正 态 分 布 的 总 体 . 

函数 shapiro.test() 的 使 用 格式 为 

shapiro.test (x) 
其 中 x 是 由 数据 构成 的 向 量 ， 并 且 疝 量 的 长 度 在 3 至 5000 之 间 . 

对 于 例 3.1 中 15 位 学 生 的 体重 数据 ， 

> Ww <- c(75.0，64.0，47.4，66.9，62.2，62.2，58.7，63.5， 

66.6，64.0，57.0，69.0，56.9，50.0，72.0) 


> shapiro.test(w) 











Shapiro-Wilk normality test 
data: Vw 


W = 0.9686, p-value = 0.8371 


2 值 为 0.8371 > 0.05, 因此 ， 认 为 来 自 正 态 分 布 的 总 体 ， 与 QQ 图 得 到 的 结 
论 相 同 ， 又 如 
> shapiro.test(runif(100, min = 2, max = 4)) 
Shapiro-Wilk normality test 
data: runif(100, min = 2, max = 4) 


W = 0.9493, p-value = 0.0007515 
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2 值 为 0.0007515 < 0.05, 认为 样本 不 是 来 自 正 态 分 布 的 总 体 ， 当然 ， 这 是 来 自 均 
匀 分 布 的 随机 数 . 


2. 经 验 分 布 的 Kolmogorov-Smirnov 检验 方法 


经 验 分 布 函数 F(x) 是 总 体 分 布 函数 FLz) 的 估计 . 经 验 分 布 拟 合 检验 的 方法 

是 检验 经 验 分 布 (zx) 与 假设 的 总 体 分 布 函数 Po(z) 之 间 的 差异 . Kolmogorov- 

Smirnov ( 科 尔 真 戈 罗 夫 - 斯 米尔 诺 夫 ) 统计 量 是 计算 所 (zx) 与 Fo(z) 的 距离 D， 
即 

D= sup |F(x)— Fo(7z)|. (3.15) 


一 DO<Z<<co 


在 R 软件 中 ， 陶 数 ks.test() 给 出 了 Kolmogorov-Smirnov 检验 方法 ， 其 
使 用 方法 是 : 
ks.test(x, y, ..., 
alternative = c('"two.sided", "less", "greater'"), 
exact = NULL) 
其 中 x 是 待 检测 的 样本 构成 的 向 量 ， y 是 原 假设 的 数据 向 量 或 是 描述 原 假 设 的 
字符 串 . 
例如 ， 
> x<-rt(100,5) 
> ks.test(x, "pf",2,5) 
One-sample Kolmogorov-Smirnov test 
data: Xx 
D = 0.5596, p-value < 2.2e-16 
alternative hypothesis: two.sided 
因为 x 是 来 自 ts 的 随机 数 ， 对 x 作 已 5 检验 ( 即 认为 是 来 自 总 体 是 自由 度 
为 (2,5) 的 下 分 布 )， 其 结果 是 拒绝 的 ， 即 不 认为 x 服从 ,s 的 分 布 . 
有 关 数 据 分 布 的 检验 ， 将 在 第 五 章 有 详细 的 介绍 . 





3.3 有 软件 中 的 绘图 命令 


在 前 面 介绍 的 数据 描述 性 分 析 中 ,数据 作 图 是 数据 分 析 的 重要 方法 之 一 ， 
此 ,利用 绘图 的 方法 研究 已 知 数据 ， 是 一 种 直观 、 有 效 的 方法 . 这 里 将 介绍 R 软 
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件 中 ， 一 些 数据 作 图 的 基本 方法 . 

在 作 图 函数 中 ， 有 二 类 作 图 函数 ， 一 类 是 高 水 平 作 图 函数 ， 另 一 类 是 低 水 平 
作 图 函数 .所 谓 高 水 平 作 图 函数 ， 是 与 低 水 平 的 作 图 阴 数 相对 应 的 ， 即 所 有 的 绘 
图 函数 均 可 产生 图 形 ， 可 以 有 坐标 轴 ， 以 及 图 和 坐标 轴 的 说 明文 字 等 , 所 谓 低 水 
平 作 图 函数 是 自身 无 法 生成 图 形 , 只 能 在 高 水 平 作 图 函数 产生 的 图 形 的 基础 上 ， 
增加 新 的 图 形 . 








3.3.1 ”高 水 平 绘图 函数 


高 水 平 作 图 函数 有 : plot() 、 pairs() 、 coplot() 、 qqnorm() 、 
qqline() 、 hist() 和 contour() 等 . 

1. plot() 函数 

函数 plot () 可 绘 出 数据 的 散 点 图 、 曲 线 图 等 ， plot() 函数 有 以 下 四 种 使 
用 方法 . 
(1) plot (x, y) 
其 中 x 和 y 是 向 量 ， 生 成 y 关于 x 的 散 点 图 . 例如 ， 第 二 章 中 的 例 2.2 就 是 这 种 
使 用 方法 . 
(2) plot (x) 
其 中 x 是 一 时 间 序 列 ， 生 成 时 间 序 列 图 形 . 如 果 x 是 向 量 , 则 产生 x 关于 下 标的 
散 点 图 ， 如 果 x 是 复 向 量 ， 则 绘 出 复数 的 实 部 与 虚 部 的 散 点 图 .第 二 章 的 2.2.6 
节 介绍 了 复数 绘图 的 情况 . 
(3) plot (f) 

plot (f, y) 

其 中 f 是 因子 ，y 是 数值 向 量 . 第 一 种 格式 生成 £ 的 直方 图 ; 第 二 种 格式 生成 
y 关于 f£ 水 平 的 箱 线 图 . 
例 3.11 利用 四 种 不 同 配方 的 材料 4 、A。、 A3 、44 生产 出 来 的 元 件 ， 测 得 
其 使 用 寿命 如 表 3.2 所 示 .” 绘 出 四 种 不 同 配方 材料 寿命 的 箱 线 图 ， 并 四 种 不 同 
配方 下 元 件 的 使 用 寿命 有 无 显著 的 差异 ? 

解 : 使 用 因子 格式 输入 数据 ， 并 绘 出 相应 的 箱 线 图 (程序 名 :exam0311.B). 

y<-c(1600，1610，1650，1680，1700，1700，1780，1500，1640， 

1400，1700，1750，1640，1550，1600，1620，1640，1600， 
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材料 
4 
4 
43 
4 


1600 1610 1650 1680 1700 1700 1780 

1500 1640 1400 1700 1750 

1640 1550 1600 1620 1640 1600 1740 1800 
1510 1520 1530 1570 1640 1600 





1740，1800，1510，1520，1530，1570，1640，1600) 
f<-factor(c(rep(1,7),rep(2,5), rep(3,8), rep(4,6))) 
plot (f,y) 
运行 后 得 到 相应 寿命 的 箱 线 图 ， 如 图 3.7 所 示 . ”从 图 中 可 以 看 出 四 种 不 同 配 方 
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图 3.7: 四 种 不 同 配方 材料 寿命 的 箱 线 图 


材料 寿命 没有 明显 变化 . 
(4) plot (df) 
plot(~ expr) 
plot(y ~ expr) 
其 中 df 是 数据 框 ，y 是 任意 一 个 对 象 ，expr 是 对 象 名 称 的 表达 式 如 (atb+c). 
例如 输入 学 生 的 年 龄 、 身 高 和 体重 构成 数据 框 (文件 名 :student_data.R) 
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df<-data.frame( 
Age=c(13, 13, 14, 12, 12, 15, 11, 15, 14, 14, 14, 
15, 12, 13, 12, 16, 12, 11, 15 ) ， 
Height=c(56.5, 65.3, 64.3, 56.3, 59.8, 66.5，51.3, 
62.5，62.8，69.0，63.5，67.0，57.3，62.5， 
59.0，72.0，64.8，57.5，66.5) ， 
Weight=c( 84.0, 98.0， 90.0， 77.0， 84.5，112.0， 
50.5，112.5，102.5，112.5，102.5，133.0， 
83.0， 84.0， 99.5，150.0，128.0， 85.0， 
112.0) ) 
plot (df) 
attach (df) 
plot (“AgetHeight) 
plot (Weight“”Aget+Height) 


plot (df) 绘 出 的 图 形 如 图 3.8 所 示 . 
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图 3.8: 年 龄 、 身 高 和 体重 三 项 指标 构成 的 散布 图 
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plot(“AgetHeight) 绘 出 身高 与 年 龄 的 散 点 图 . plot (Weight ”~Age+Height) 
绘 出 两 张 散 点 图 ， 第 一 张 是 体重 与 年 龄 ， 第 二 张 是 体重 与 身高 
plot 还 可 以 作 回归 诊断 图 等 ， 有些 较 深入 的 知识 ， 将 随 着 后 面 统计 知识 也 
深入 再 介绍 . 
2. 显示 多 变量 数据 
R 软件 为 显示 多 变量 数据 提供 了 两 个 非常 有 用 的 函数 .一 个 是 pairs() 孙 
数 ， 当 X 是 矩阵 或 数据 框 时 
> pairs(X) 

绘 出 关于 和 矩阵 各 列 的 散布 图 ， 例如， 以 学 生 的 数据 框 为 例 ， 
> pairs(df) 

绘 出 的 图 形 与 前 面 的 plot (df) 相同 . 

男 一 方面 个 函数 是 coplot (). 当 有 三 、 四 个 变量 时 ， coplot () 可 以 将 散 点 
图 画 的 更 细 . 假设 a 和 b 是 数值 向 量 ， 并 且 c 是 向 量 或 因子 ( 所 有 变量 具有 相 
同 的 长 度 )， 则 

> coplot(a ~ b | c) 
绘 出 在 给 定 c 值 下 ， a 关于 bp 的 散 点 图 .仍然 以 学 生 的 年 龄 、 身 高 和 体重 的 数 
据 为 例 ， 
> coplot (Weight ~ Height | Age) 
绘 出 了 按 年 龄 段 给 出 的 体重 与 身高 的 散 点 图 ， 如 图 3.9 所 示 . 
对 于 四 个 变量 a，b，c，d, 还 可 以 有 如 下 命令 ; 
> coplot(a ~b |lcr+ad) 


即 按 c 、d 划分 下 ， a 关 于 的 散 点 图 . 
3. 显示 图 形 
其 他 的 高 水 平 绘图 函数 有 qqnorm(), hist(), dotchart(), contour() 等 . 











(1) qqnorm (x) 
qqline(x) 
qqplot (x, y) 
其 中 x，y 数值 型 向 量 ， 绘 出 数据 的 QQ 散 点 图 (已 在 3.2.2 节 介 绍 过 ). 
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图 3.9: 按 年 龄 划分 的 体重 与 号 高 的 散 点 图 
(2) hist(x) 


hist(x, nclass=n) 


hist(x, breaks=b, ...) 
其 中 x 数值 型 向 量 ， 绘 出 数据 的 直方 图 (已 在 3.2.2 节 介 绍 过 ). 
(3) 
构造 数据 x 的 点 图 ， 在 点 图 中 ， 


dotchart(x, ...) 


y 轴 是 数据 x 标记 ，x 轴 是 数据 x 的 数值 . 
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例如 ， BR. 软件 中 ， 数 据 VADeaths 给 出 了 Virginia (弗吉尼亚 ) 州 在 1940 年 
的 人 口 死亡 率 ， 
Rural Male Rural Female Urban Male Urban Female 
50-54 11.7 8.7 15 .4 8.4 
55-59 18 .1 11.7 24.3 13.6 
60-64 26.9 20.3 37.0 19.3 
65-69 41.0 30.9 54.6 35.1 
70-74 66.0 54.3 71.1 50.0 
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我 们 画 出 该 数据 的 点 图 ， 
> dotchart (VADeaths, main = "Death Rates in Virginia - 1940") 
> dotchart(t(VADeaths), main = "Death Rates in Virginia - 1940") 


如 图 3.10 所 示 ， 其 中 (a) 是 第 一 个 命令 ，(b) 是 第 二 个 命令 . 
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(a) (b) 
图 3.10: Virginia 州 在 1940 年 的 人 口 死亡 率 的 点 图 


(4) image (x, y, Z, ...) 

contour(x, y, Z, ...) 

persp(xXx, y, Z, ...) 
其 中 x，y 是 数值 型 向 量 ，z 与 x 和 y 对 应 的 矩阵 (z 的 行 数 是 x 的 维 数 ，z 的 
列 数 是 y 的 维 数 )，image() 绘 出 三 维 图 形 的 映 象 ， contour () 绘 出 三 维 图 形 的 
等 值 线 ， persp() 绘 出 三 维 图 形 的 表面 曲线 . 
例 3.12 (山区 地 有 狐 图 ) 在 某 山 区 (平面 区 域 (0,2800) x (0,2400) 内 ， 单位: 米 ) 
测 得 一 些 地 点 的 高 度 ( 单位， 米 ) 如 表 3.3 所 示 .” 试 作出 该 山区 的 地 貌 图 和 等 
值 线 图 。 

解 : 输入 数据 ， 调 用 contour () 函数 画 等 值 ， 调 用 persp() 隆 数 画 三 维 图 

形 (程序 名 : ”exam0312.R). 

x<-seq(0,2800,，400); y<-seq(0,2400,400) 


Z<-Scan() 
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表 3.3: 某 山区 地 形 高 度数 据 
1450 1470 1320 1280 1200 1080 940 


1480 1500 1550 1510 1430 1300 1200 
1500 1550 1600 1550 1600 1600 1600 
1500 1200 1100 1550 1600 1550 1380 
1500 1200 1100 1350 1450 1200 1150 
1390 1500 1500 1400 900 1100 1060 
1320 1450 1420 1400 1300 700 900 





400 800 1200 1600 2000 2400 2800 


1180 1320 1450 1420 1400 1300 700 900 
1230 1390 1500 1500 1400 900 1100 1060 
1270 1500 1200 1100 1350 1450 1200 1150 
1370 1500 1200 1100 1550 1600 1550 1380 
1460 1500 1550 1600 1550 1600 1600 1600 
1450 1480 1500 1550 1510 1430 1300 1200 
1430 1450 1470 1320 1280 1200 1080 940 


Z<-matrix(z, nrow=8) 
contour(x, y, 2Z, levels = seq(min(z), max(z), by = 80)) 
persp(x, y, 2) 
将 绘 出 两 幅 图 形 ， 一 幅 是 等 值 线 图 ， 如 图 3.11(a) 所 示 ， 另 一 幅 是 三 维 曲面 ， 如 
图 3.11(b) 所 示 . 
我 们 可 以 看 到 ， 图 3.11 有 两 个 缺点 ， 一 是 过 于 粗糙 ， 其 原因 是 由 于 数据 量 
过 少 造 成 的 ， 如 果 数 据 量 稍 大 一 些 ， 图 形 质量 将 会 有 很 大 的 改善 ; 二 是 三 维 图 的 
观察 角度 不 理想 ,， 这 是 由 于 只 用 到 函数 中 各 种 参数 的 缺 省 值 状态 如 果 改 变 某 些 
参数 的 值 ， 图 形 的 观察 角度 也 会 随 之 改变 . 例如， 将 命令 改 成 


> persp(x, y, Z, theta = 30, phi = 45，expand = 0.7) 
其 观察 角度 将 好 的 多 . 
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(a) 等 值 线 图 (b) 三 维 曲 面 图 
图 3.11: 三 维 数据 的 等 值 线 与 网 格 曲 面 


例 3.13 在 [一 27,2pi] x [一 27,27] 的 正方 形 区 域内 绘 函 数 Zz = sin(7) sin(y) 的 等 
值 线 图 和 三 维 曲 面 图 . 

解 : 写 出 相应 的 R 程序 (程序 名 : ”exam0313.R) 

x<-y<-seq(-2*pi, 2*pi, pi/15) 

f<-function(x,y) sin(x)*sin(y) 

z<-outer(x, y, £) 

contour (x,y,Zz,c0l="blue") 

persp(x,y,2z,theta=30, phi=30, expand=0.7,col="lightblue") 

注意 ， 在 绘 三 维 图 形 时 ， > 并 不 是 简单 地 关于 z 与 y 的 某 些 运算 ,而 是 需 
要 在 函数 f 关系 下 作 外 积 运 算 (outer(x，y，f)), 形成 网 格 ， 这 样 才能 绘 出 三 
维 图 形 ， 请 初学 者 特别 注意 这 一 点 ， 所 绘 出 的 图 形 如 图 3.12 所 示 . 在 绘图 命令 
中 增加 了 图 形 的 颜色 和 观察 图 形 的 角度 . 


3.3.2 ”高 水 平 绘图 中 的 命令 

在 高 水 平 给 函数 中 ， 可 以 加 一 些 命令 , 不 断 完善 图 的 内 容 ,， 或 增加 一 些 有 用 
的 说 明 . 

1. 图 中 的 逻辑 命令 


add = TRUE 表示 所 绘图 在 原 图 上 加 图 , 缺 省 值 为 add = FALSE, 即 新 的 图 蔡 
换 原 图 . 
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(b) 三 维 曲面 图 
图 3.12: 函数 > = sin(z) sin(y) 的 等 值 线 与 网 格 曲面 


axes = FALSE 表示 所 绘图 形 没有 坐标 轴 ， 缺 省 值 为 axes = TRUE. 


2. 数据 取 对 数 


log = "x" 表示 x 轴 的 数据 取 对 数 ， log = "y" 表示 y 轴 的 数据 取 对 数 ， 
log = "xy" 表示 x 轴 与 y 轴 的 数据 同时 取 取 对 数 . 


3. type 命令 
e type="p" 绘 散 点 图 ( 缺 省 值 ) 
。 type="1" 绘 实 线 ; 
。 type="b" 所 有 点 被 实 线 连接 ; 
@ type="o" ee 
© type="h" 出 点 到 x 轴 的 竖 线 ， 
。 type="s" or "S" 绘 出 阶梯 形 曲 线 ， 
。 type="n" 不 绘 任何 点 或 曲线 . 


4. 图 中 的 字符 串 


xlab= 字符 串 ， 其 字符 串 的 内 容 是 x 轴 的 说 明 ， ylab= 字符 串 ， 其 字符 串 
的 内 容 是 y 轴 的 说 明 . main= 字符 串 ， 其 字符 串 的 内 容 是 图 的 说 明 ， 和 sub= 


字符 串 ， 其 字符 串 的 内 容 是 子 图 的 说 明 . 
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3.3.3 ” 低 水 平 作 图 函数 

有 时 高 水 平 的 作 图 函数 并 不 能 完全 达到 作 图 的 指标 ,需要 低 水 平 的 作 图 函数 
对 图 形 子 以 补充 . 所 有 的 低 水 平 作 图 函数 所 作 的 图 形 必 须 是 在 高 水 平 作 图 函数 所 
绘图 形 的 基础 之 上 ， 增 加 新 的 图 形 . 

低 水 平 作 图 函数 有 points() 、lines() 、text() 、abline() 、polygon() 、 
legend() 、title() 和 axis() 等 . 


1. 加 点 与 线 的 函数 

加 点 函数 是 points(), 其 作用 是 在 已 有 图 上 加 点 ， 命 令 points(x，y) 其 功 
能 相当 于 plot (x,y). 

加 线 函 数 1ines(), 其 作用 是 在 已 有 图 上 加 线 , 命令 lines (x，y) 其 功能 相 
当 于 plot (x, y, type="1"). 

2. 在 点 处 加 标记 

函数 text () 的 作用 是 在 图 上 加 标记 ， 命 令 格 式 为 : 

text(x, y, labels, ...) 


其 中 x,y 是 数据 向 量 ， labels 可 以 是 整数 ， 也 可 以 是 字符 串 . 在 缺 省 状态 下 ， 
labels=1:length(x)， 例 如 ， 需 要 绘 出 (7,y) 的 散 点 图 ， 并 将 所 有 点 用 数字 标 
记 ， 其 命令 为 

> plot(x, y, type = "n"); text(x, y) 





3. 在 图 上 加 直线 


函数 abline() 可 以 在 图 上 加 直线 ， 其 使 用 方法 有 四 种 格式 . 
(1) abline(a, b) 


表示 画 一 条 y= a 十 bz 的 直线 . 


(2) abline (h=y) 
表示 画 出 一 条 过 所 有 点 的 水 平 直线 . 
(3) abline (v=x) 


表示 画 出 一 条 过 所 有 点 的 竖 直 直线 . 
(4) abline(lm.obj) 
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表示 绘 出 线性 模型 得 到 的 线性 方程 . 以 第 二 章 的 例 2.3 为 例 , 说 明 该 命令 的 用 法 . 
输入 命令 (程序 名 ， add_line.R) 
rt<-read.table("exam0203.txt", head=TRUE); 
lm.sol<-lm(Weight “Height, data=rt) 
attach(rt) 
plot (Weight “Height); abline(lm.sol) 


得 到 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 ， 如 图 3.13 所 示 . 


Weight 














55 60 65 70 


Height 


图 3.13: 学 生体 重 与 高 度 的 散 点 图 和 线性 回归 直线 图 


函数 polygon() 可 以 在 图 上 加 多 边 形 ， 其 使 用 方法 为 
polygon(x, y, ...) 
以 数据 的 (x,y) 为 坐标 ， 依 次 连接 所 有 的 点 ， 绘 出 一 多 边 形 . 
4. 在 图 上 加 标记 、 说 明 或 其 他 内 容 
在 图 上 加 说 明文 字 、 标 记 或 其 他 内 容 有 两 个 函数 . 一 个 是 加 图 的 题目 ， 用 法 


是 


title(main="Main Title", sub = "sub title",) 
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其 中 主题 目 加 在 图 的 项 部 ， 子 题目 加 在 图 的 底部 . 

男 一 个 是 在 坐标 轴 上 加 标记 、 说 明 或 其 他 内 容 ， 用 法 是 

axis(side, ...) 

其 中 side 是 边 ，side=1 表示 所 加 内 容 放 在 图 的 底部 ，side=2 表示 所 加 内 容 放 
在 图 的 左 侧 ， side=3 表示 所 加 内 容 放 在 图 的 项 部 ， side=4 表示 所 加 内 容 放 在 
图 的 右 侧 . 

在 R 软件 中 ， 还 有 其 他 一 些 作 图 函数 或 作 图 命令 ， 需 要 大 家 在 绘图 实践 中 
逐步 掌握 , 在 后 面 的 各 章 中 ， 结 合 相应 的 统计 知识 ， 还 会 介绍 更 加 深入 的 绘图 方 
法 . 


3.4 多 元 数据 的 数据 特征 与 相关 分 析 


在 上 述 各 市 的 分 析 中 ， 其 样本 数据 基本 上 是 来 自 一 元 总 体 X, 而 在 实际 情况 
中 ， 许 多 数据 来 自 多 元 数据 的 总 体 ， 即 来 自 总 体 (Xi1, X2,.…, Xb)”. 对 于 来 自 多 
元 总 体 的 数据 ,除了 分 析 各 个 分 量 的 取 值 特点 外 ,更 重要 的 是 分 析 各 个 分 量 之 间 
的 相关 关系 ， 这 就 是 多 元 数据 的 相关 分 析 . 
3.4.1 ”二 元 数据 的 数字 特征 及 相关 系数 


设 (X, y)T 是 二 元 总 体 ， 从 中 取得 观测 样本 (21， y1)’, (2Z2， 22)， 让 Cp Yn)T. 
其 样本 观测 矩阵 为 
> 2 守 六 式 a 
/1 VY2 ee. Yn 2 


1 a 
Ee 之 


则 称 (3, 妨 ”为 二 元 观测 样本 的 均值 向 量 . 记 


记 
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则 称 szz 为 变量 X 的 观测 样本 的 方差 ， 称 sw 为 变量 了 的 观测 样本 的 方差 ， 称 
szay 为 变量 X,Y 的 观测 样本 的 协 方差 ， 称 


为 观测 样本 的 协 方差 怎 阵 ， 称 
Syy 


Y= 
V SzrrV Syy 





为 观测 样本 的 相关 系数 . 

在 R 软件 中 ， 计 算 二 元 样本 的 均值 方差 的 命令 基本 上 与 一 元 变量 的 命令 相 
同 ， 有 些 地 方略 有 一 些 改动 . 计算 多 元 数据 的 均值 与 方差 采用 数据 框 的 结构 输入 
数据 ， 在 计算 中 较为 方便 ， 看 下 面 的 例子 . 
例 3.14 某 种 矿石 有 两 种 有 用 成 分 A, B, 取 10 个 样本 ， 每 个 样本 中 成 分 4 的 含 
量 百分数 Z(%) 及 B 的 含量 百分数 Yy( 久 ) 的 数据 如 表 3.4 所 示 . ”计算 样本 的 均 





表 3.4: 矿石 中 有 用 成 分 含量 的 百分数 


值 、 方 差 、 协 方差 和 相关 系数 . 
解 : 采用 数据 框 方式 输入 数据 , 用 mean() 函数 计算 均值 , 用 cov() 函数 计算 
协 方差 阵 , 用 cor() 函数 计算 相关 矩阵 ( 相关 系数 )、( 程序 名 : exam0314.R ) 
ore<-data.frame( 
x=c(67，54，72，64，39，22，58，43，46，34) ， 
y=c(24，15，23，19，16，11，20，16，17，13) 
) 


ore.m<-mean(ore); ore.s<-cov(ore); ore.r<-cor(ore) 
显示 结果 为 
> ore.m 


y 
49.9 17.4 
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> ore.s 
x y 
X 252.7667 60.60000 
y 60.6000 17.15556 
> ore . 工 
Xx y 
X 1.0000000 0.9202595 
y 0.9202595 1.0000000 
在 上 述 计算 中 ， var (ore) 得 到 的 计算 结果 与 cov(ore) 得 到 的 结果 相同 . 
函数 cov() 和 cor() 的 使 用 格式 为 
cov(x, y = NULL, use = "al1.obs'"， 
method = c("pearson", "kendall", "spearman'")) 
cor(x, y = NULL, use = "all.obs", 
method = c("pearson", "kendall", "spearman'")) 
其 中 x 是 数值 型 向 量 、 甜 阵 或 数据 框 。 y 是 空 值 (NULL, 缺 省 值 ) 、 向 量 、 和 矩阵 或 
数据 框 ， 但 需要 与 x 的 维 数 相 一 致 . cov() 的 返回 值 是 协 方差 或 协 方差 矩阵 . 
cor() 的 返回 值 是 相关 系数 或 相关 矩阵 . 
与 cov 和 cor 有 关 的 函数 还 有 : ”cov.wt 一 计算 加 权 协 方差 (加 权 协 方差 
矩 隐 ; cor.test 一 计算 相关 性 检验 . 


3.4.2 ”二 元 数据 的 相关 性 检验 


对 于 一 般 的 检验 问题 我 们 将 在 第 五 章 讨论 , 这 里 主要 论述 二 元 数据 相关 性 的 
检验 问题 . 
对 于 二 元 数据 





(x1, 11),, (Z2; 2) 2 (Zn om) 


可 以 计算 出 样本 的 相关 系数 rw， 假设 样本 来 自 总 体 (X,Y), 由 第 一 章 的 知识 可 
知 ， 总 体 的 相关 系数 为 
Cov(X,Y) 


Oe 


那么 样本 的 相关 系数 与 总 体 的 相关 系数 有 什么 关系 呢 ? 
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可 以 证 明 ， 当 样本 个 数 n 充分 大 ， ray 可 以 作为 p(X,Y) 的 估计 ， 也 就 是 
说 ， 当 样本 个 数 较 大 时 ,样本 相关 ， 总 体 也 相关 . 但 当 样 本 个 数 较 小 时 ， 就 无 法 
得 到 相应 的 结论 . 现在 的 问题 是 ， 当 样本 个 数 n 至 少 取 到 多 少时 ， 样 本 相关 才能 
保证 总 体 也 相关 ? 

Ruben (和 鲁 宾 ) 给 出 了 总 体 相关 系数 的 区 间 佑 计 (一 般 区 间 佑 计 的 知识 将 在 
第 四 章 作 详细 的 介绍 ) 的 近似 逼近 公式 . 设 n 是 样本 个 数 ，r 是 样本 相关 系数 ， 
u 是 标准 正 态 分 布 的 上 a/2 分 位 点 ， 即 w == zoy2. 则 计算 











和 (3.16) 
Vi-r? | 
a = 2n—3—wu, (3.17) 
b = rvV(2n 3)(2n 一 5)， (3.18) 
c = (2 一 5 一 zir — 2v. (3.19) 
求 方程 ay” 一 2by 二 c= 0 的 根 
b— VO —ac b+ VO —ac 
人 (3.20) 
则 1 一 a 的 双 侧 置信 区 间 为 
Ee Oe A (3.21) 


Vi+ 色 VI+ 级 
按照 公式 (3.16)-(3.21) 编写 出 R 程序 (程序 名 :”ruben.R) 


ruben.test <- function(n, r, alpha=0.05){ 
u <- qnorm(1-alpha/2) 
r_star <- r/sqrt(1-r“2) 
a <- 2*n-3-u’ 2 
b <- r_star*sqrt((2*n-3)*(2*n-5)) 
Cc <- (2*n-5-u*2)*r_star 2-2*u”2 
yl <- (b-sqrt(b*2-a*c))/a 
y2 <- (bt+sqrt(b*2-a*c))/a 
data.frame(n = n, r = r, conf = 1-alpha, 


L = yi/sgqrt(1i+y1°2), U = y2/sqrt (1+y2°2)) 
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当即 = 6,7 = 0.8 时 ， 调 入 已 编 好 的 函数 ruben.test(), 并 计算 得 到 
> source("ruben.test.R") 
> ruben.test(6, 0.8) 
n IT conf L U 
160.8 0.95 -0.09503772 0.9727884 
置信 区 间 为 (一 0.095, 0.97), 其 置信 下 界 是 负数 ， 即 使 7" = 0.8, 也 不 能 说 明 总 体 是 
考虑 n = 25, 7 = 0.7, 计算 得 到 
> ruben.test (25, 0.7) 


n r conf L U 


1 25 0.7 0.95 0.4108176 0.8535657 
置信 区 间 为 (0.41, 0.85), 此 时 ， 基 本 上 能 说 总 体 是 相关 的 . 
关于 和 置信 区 间 的 近似 逼近 方法 还 有 David (大 卫 ， 1954) 提出 的 图 表 方 法 ， 
Kendall ( 肯 德 尔 ) 和 Stuart (斯 图 亚 特 ， 1961) 提出 的 Fisher 逼近 方法 等 . 
确认 总 体 是 否 相 关 最 有 效 的 方法 是 作 总 体 (X,Y) 的 相关 性 检验 . 
可 以 证 明 ， 当 (X,Y)7 是 二 元 正 态 总 体 ， 且 p(X,Y) = 0, 则 统计 量 


he (3.22) 











服从 自由 度 为 % 一 2 的 t 分 布 . 
利用 统计 量 t 服从 自由 度 为 n 一 2 的 + 上 分布 的 性 质 ， 可 以 对 数据 X 和 了 的 
相关 性 进行 检验 . 由 于 相关 系数 ray 被 称 为 Pearson (皮尔 森 ) 相关 系数 ， 因 此 ， 
此 检验 方法 也 称 为 Pearson 相关 性 检验 . 
对 于 相关 性 检验 ， 还 有 Spearman 秩 检 验 和 Kendall 秩 检 验 ， 这 里 只 介绍 用 
R 软件 进行 检验 的 方法 ， 有 关 检 验 原理 请 读者 参看 有 关 的 数理 统计 教材 . 
在 R 软件 中 ， cor.test() 提供 了 上 述 三 种 检验 方法 ， 其 使 用 方法 是 ; 
cor.test(x, y, 
alternative = c('"two.sided", "less", "greater'"), 
method = c("pearson", "kendall", "spearman'"), 


exact = NULL, conf.level = 0.95, ...) 
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其 中 x，y 是 数据 长 度 相同 的 向 量 ，alternative 是 备 择 假设 ( 有关 概念 将 在 第 
五 章 中 详细 介绍 )， 缺 省 值 为 "two.sided", method 是 选择 的 检验 方法 ， 缺 省 什 
为 Pearson 检验 . conf .level 是 置信 区 间 水 平 ， 缺 省 值 为 0.95. 

cor .test() 函数 还 有 另 一 种 使 用 格式 

cor.test(formula, data, subset, na.action, ...) 

其 中 formula 是 公式 ， 形 如 ”urv， ?ua ，"Y” 必须 是 具有 相同 长 度 的 数值 向 
量 . data 是 数据 框 . subset 是 可 选择 向 量 ， 表 示 观 察 值 的 子 集 . 
例 3.15 对 例 3.14 的 两 组 数据 进行 相关 性 检验 . 

解 : 
> attach(ore) 
> cor.test(x,y) 

Pearson’s product-moment correlation 
data: x and y 
t = 6.6518, df = 8, p-value = 0.0001605 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.6910290 0.9813009 
sample estimates: 
cor 

0.9202595 
其 p 值 为 0.0001605 < 0.05, 拒绝 原 假设 ， 认 为 变量 X 与》 相关 . 

实际 上 ， cor.test() 也 提供 了 相关 系数 的 区 间 估 计 ， 这 里 计算 的 区 间 是 
(0.69, 0.98), 因此 从 这 一 点 也 可 看 出 变量 X 与 了 是 相关 的 . 

另外 可 用 


cor .test(X,yY，method="spearman'") 








cor.test(x,y, method="kendall") 


命令 作 男 外 两 种 检验 . 


3.4.3 ”多 元 数据 的 数字 特征 及 相关 矩阵 
对 于 p 元 总 体 (Xi1, 及 2， We) Xn 其 样本 为 


(211， X12,"**， 2Z1p) 7 (2Z21， X22,"**， Zap) 2 (Zyl Xn2,"**， gr i 
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其 中 第 i 本 样本 为 
(Zi Lio, Lip) i=1,2,..,N. 
样本 的 第 7 个 分 量 的 均值 定义 为 
5 = Ds j= 1,2,..…,p. 
样本 的 第 7 个 分 量 的 方差 定义 为 
Dd 


样本 的 第 7 个 分 量 与 第 个 分 量 的 协 方 差 定 义 为 


Nn 








1 _ . 
二 Ts 一 区 (Cox Th), j,k = 1,2,...,p. 
外 T= (Ti1, To», eh , Tp) 为 p 元 样本 的 均值 ， 称 
S11 S512 *** Si1p 
9 2 人 
Spl 3p2 “°° Spp 
为 样本 的 协 方差 矩阵 . 
样本 的 第 7 个 分 量 与 第 k 个 分 量 的 相关 系数 定义 为 
Sjk 9 
Tjk 一 )》 7 大 一 1 2 …)D. 
2 VSIIV SR 
称 
711 712 TIp 
ee 721 722 Top 
Tpl Tp2 “°° Tpp 


为 样本 的 相关 和 矩阵 ( Pearson 相关 和 矩阵 ). 


(3.23) 


(3.24) 


(3.25) 


(3.26) 


(3.27) 


(3.28) 


对 于 多 元 数据 ， 与 二 元 数据 相同 ， 采 用 数据 框 的 输入 方式 ， 可 以 用 mean() 


函数 、 cov() 函数 和 cor() 函数 计算 样本 的 均值 、 协 方差 阵 和 相关 矩阵 . 


关于 相关 性 检验 ，R 软件 没有 为 多 元 数据 提供 更 多 的 函数 , 仍 是 cor test () 


作 两 两 分 量 的 相关 性 检验 . 
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例 3.16 为 了 解 某 种 橡 胺 的 性 能 , 今 柏 取 10 个 样品 ,， 每 个 测量 三 项 指标 : 现 度 、 
变形 和 弹性 ， 其 数据 如 表 3.5 所 示 .， 试 计算 样本 均值 、 样 本 协 方差 阵 和 样本 相 


‘OO Co OD oO 上 由 已 一 


jt 
所 > 


表 3.5: 橡胶 的 三 项 指标 
硬度 (X1) 





各 性 《2 
27.6 
30.7 
31.8 
32.6 
31.0 
31.3 
37.0 
33.6 
33.1 
34.2 


关 算 阵 . 并 用 Pearsom 相关 性 检验 确认 变量 Xi, Xo, X3 是 否 相 关 ? 





解 : 建立 数据 文件 (文件 名 : 


X1 
65 
70 
70 
69 
66 
67 
68 
72 
66 
68 


‘OO 0 OO a OW DD -~ 


[me 
LD 


X2 
45 
45 
48 
46 
50 
46 
47 
43 
47 
48 


27 . 
30 . 
31 . 
32 . 
31 . 
31 . 
37 . 
33 . 
33 . 
34. 


p< 
CD 


DD ~ OO OO WW OO 0 oo ~ 路 


rubber .data), 其 格式 为 


读数 据 ， 并 计算 均值 、 协 方差 阵 和 相关 矩阵 


> rubber<-read.table('"rubber.data'") 
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> mean(rubber) 
X1 X2 X3 
68.10 46.50 32.29 
> cov(rubber) 
X1 X2 X3 
X1 4.766667 -1.9444444 1.9344444 
X2 -1.944444 3.8333333 0.6166667 
X3 1.934444 0.6166667 6.1898889 
> cor(rubber) 
X1 X2 X3 
X1 1.0000000 -0.4548832 0.3561291 
X2 -0.4548832 1.0000000 0.1265962 
X3 0.3561291 0.1265962 1.0000000 


> cor.test(~“X1+X2, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X2 
t = -1.4447, df = 8, p-value = 0.1865 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.8430535 0.2448777 
sample estimates: 
cor 


-0.4548832 


> cor.test(~"Xi1+X3, data=rubber) 
Pearson’s product-moment correlation 
data: X1 and X3 
t = 1.078, df = 8, p-value = 0.3125 
alternative hypothesis: true correlation is not equal to 0 


95 percent confidence interval: 
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-0.3525486 0.8052056 
sample estimates: 
cor 


0.3561291 


> cor.test(~"X2+X3,data=rubber) 
Pearson’s product-moment correlation 
data: X2 and X3 
t = 0.361, df = 8, p-value = 0.7275 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
-0.5465985 0.7003952 
sample estimates: 
cor 


0.1265962 
从 上 述 计 算 结果 可 以 看 出 ， 只 能 认为 Xi, X>, Xs 两 两 均 是 不 相关 的 . 


3.4.4 基于 相关 系数 的 变量 分 类 


本 小 节 以 一 个 例子 说 明 相 关系 数 的 应 用 一 基于 相关 系数 的 变量 分 类 . 
例 3.17 现 有 48 位 应 聘 者 应 聘 某 公司 的 某 职 位 ， 公 司 为 这 些 应 聘 者 的 15 项 指 
标 打分 ， 这 15 项 指标 分 别 是 ， 求 职 信 的 形式 (FL) 、 外 貌 (4PP) 、 专 业 能 
(44) 、 讨 人 喜欢 (LA) 、 自 信心 (SC) 、 洞 察 力 (LC) 、 诚 实 (HON) 、 推 销 能 
(SMS) 、 经 验 (BXP) 、 驾 驶 水 平 (DRV) 、 事 业 心 (4MB) 、 理 解 能 力 (GSP) 、 
潜在 能 力 (POT) 、 交 际 能 力 (KJ) 和 适应 性 (SUIT). 每 项 分 数 是 从 0 分 到 10 
分 ， 0 分 最 低 ， 10 分 最 高 ， 每 位 求职 者 的 15 项 指标 列 在 表 3.6 中 .公司 计划 
录用 6 名 最 优秀 的 申请 者 ， 问 公司 将 如 何 挑 选 这 些 应 聘 者 ? 

解 : 通常 的 作法 是 : 作 15 项 指标 的 平均 值 


AVG = (FL + APP +...+ SUIT)/15, 





录用 分 数 最 高 的 6 名 应 聘 者 . 
录入 数据 (文件 名 : ”applicant .data ) 
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表 3.6: 48 名 应 聘 者 的 得 分 情况 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





10 
10 
10 
10 


10 
10 


10 
10 


7 8 8 8 


10 


7 
3 
7 


10 2 10 10 


10 0 10 8 


7 
7 
7 
9 


4 
4 
4 
6 


人 
和 


10 
10 


10 


10 


8 


10 4 10 10 


10 5 4 


8 


10 


5 


10 


4 8 8 
4 7 8 


8 


10 


8 


10 


7 10 8 10 10 


8 


9 





24 
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48 名 应 聘 者 的 得 分 情况 


表 3.6 续 : 
IDIFL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 





7 7 4 5 


7 8 5 4 
7 9 8 9 


8 
10 


7 
2 


26 
27 


10 


9 


10 
10 


7 
7 
4 3 3 


6 


10 
10 
10 
10 


10 10 10 10 8 10 10 10 
10 10 10 10 10 10 10 


10 


10 9 10 
10 9 10 


9 
9 


6 
6 


39|10 


40|110 


7 6 9 8 


7 


7 
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8 10 10 7 9 10 


7 


9 
0 


46 


10 3 5 0 


47 
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FL APP AA LA SC LC HON SMS EXP DRV AMB GSP PUT KJ SUIT 
1 6 7 2 5 8 7 8 8 3 8 9 7 5 7 10 
2 9 10 5 810 9 9 10 5 9 9 8 8 8 10 
3 7 8 3 6 9 8 9 7 4 9 9 8 6 8 10 


读数 据 ， 计 算 各 应 聘 者 的 平均 得 分 ， 再 将 平均 得 分 排序 (由 大 到 小 ), 得 到 
> rt <- read.table("applicant .data'") 
> AVG <- apply(rt, 1, mean) 
> sort(AVG, decreasing = TRUE) 


40 39 8 7 23 22 2 
9.600000 9.466667 9.000000 8.600000 8.600000 8.533333 8.466667 
24 9 10 16 3 44 12 


8.400000 8.133333 7.666667 7.666667 7.400000 7.400000 7.200000 


这 样 得 到 前 6 名 应 聘 者 是 : 40 、39、8、7、23 和 22 号 . 

将 上 述 语句 中 的 mean 改 为 sum 即 求 应 聘 者 的 总 得 分 ， 其 选择 结果 是 相同 
的 . 

显然 ,上 述 作法 认为 每 项 指标 的 权重 是 相同 的 . 当然 ,也 可 以 按 加 权 平 均值 


WTD_AVG = wiFL + woAPP 十 .… 十 159UIT， 


其 中 wi, 2 ,wis 是 权 值 ， 满足 如 十 wz 十 … 十 wis 二 1 wi(i=1,2,.…,15) 
表示 第 i 项 指标 的 重要 性 . 这 里 需要 确定 每 项 指标 的 权重 . 

上 述 两 种 方法 有 它 的 缺点 ， 因 为 有 些 指标 是 相关 的 ， 而 有 些 指标 不 相关 ， 只 
作 人 简单 的 平均 计算 ， 实 际 上 ， 相 关 类 多 的 项 占 的 权重 大 ， 而 相关 类 少 的 项 占 的 权 
重 小 ， 因 此 ， 在 作 评 分 前 ， 应 先 作 相关 性 分 析 . 

作 数 据 的 相关 性 计算 ， 计 算 相关 矩阵 


> Cor(rt) 
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FL APP AA LA SC 
FL 1.00000000 0.2388057 0.044040889 0.306313037 0.092144656 
APP 0.23880573 1.0000000 0.123419296 0.379614151 0.430769427 
AA 0.04404089 0.1234193 1.000000000 0.001589766 0.001106763 
LA 0.30631304 0.3796142 0.001589766 1.000000000 0.302439887 
SC 0.09214466 0.4307694 0.001106763 0.302439887 1.000000000 
LC 0.22843205 0.3712589 0.076824494 0.482774928 0.807545017 
HON -0.10674947 0.3536910 -0.030269601 0.645408595 0.410090809 
SMS 0.27069919 0.4895490 0.054727421 0.361643880 0.799630538 
EXP 0.54837963 0.1409249 0.265585352 0.140723415 0.015125832 
DRV 0.34557633 0.3405493 0.093522030 0.393164148 0.704340067 
AMB 0.28464484 0.5496359 0.044065981 0.346555034 0.842122228 
GSP 0.33820196 0.5062987 0.197504552 0.502809305 0.721108973 
POT 0.36745292 0.5073769 0.290032151 0.605507554 0.671821239 
KJ 0.46720619 0.2840928 -0.323319352 0.685155768 0.482455962 
SUIT 0.58591822 0.3842084 0.140017368 0.326957419 0.250283416 

LC HON SMS EXP DRV 
FL 0.2284320 -0.106749472 0.27069919 0.54837963 0.34557633 
APP 0.3712589 0.353690969 0.48954902 0.14092491 0.34054927 


AA 0.0768245 -0.030269601 0.05472742 0.26558535 0.09352203 
LA 0.4827749 0.645408595 0.36164388 0.14072342 0.39316415 
SC 0.8075450 0.410090809 0.79963054 0.01512583 0.70434007 
LC 1.0000000 0.355844464 0.81802080 0.14720197 0.69751518 


HON 0.3558445 1.000000000 0.23990754 -0.15593849 0.28018499 
SMS 0.8180208 0.239907539 1.00000000 “0.25541758 0.81473421 
EXP 0.1472020 -0.155938495 0.25541758 1.00000000 0.33722821 
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DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


FL 
APP 
AA 
LA 
SC 
LC 
HON 
SMS 
EXP 
DRV 
AMB 
GSP 
POT 
KJ 
SUIT 


0.6975152 
0.7575421 
0.8828486 
0.7773162 
0.5268356 
0.4161447 
AMB 
0.28464484 


0.54963595 


0.04406598 
0.34655503 


0.84212223 
0.75754208 


0.21460636 


0.85952656 


0.19548192 


0.78032317 


1.00000000 


0.78387073 
0.76886954 
0.54712558 


0.43476824 
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0.280184989 
0.214606359 
0.385821758 
0.415657447 
0.448245522 
0.002755617 


GSP 
0.3382020 


0.5062987 


0.1975046 


0.5028093 
0.7211090 
0.8828486 


0.3858218 


0.7821232 


0.2992682 


0.7140732 
0.7838707 


1.0000000 


0.8758309 
0.5494076 
0.5278163 


数据 描述 性 分 析 
0.81473421 0.33722821 
0.85952656 0.19548192 
0.78212322 0.29926823 
0.75360983 0.34833878 
0.56328419 0.21495316 
0.55803585 0.69263617 

POT KJ 
0.3674529 0.4672062 
0.5073769 0.2840928 
0.2900322 -0.3233194 
0.6055076 0.6851558 
0.6718212 0.4824560 
0.7773162 0.5268356 
0.4156574 0.4482455 
0.7536098 0.5632842 
0.3483388 ”0.2149532 
0.7884002 0.6128077 
0.7688695 0.5471256 
0.8758309 0.5494076 
1.0000000 ”0.5393968 
0.5393968 1.0000000 
0.5738732 0.3957988 


1.00000000 
0.78032317 
0.71407319 
0.78840024 
0.61280767 
0.62255406 

SUIT 


0.585918216 


0.384208365 
0.140017368 
0.326957419 
0.250283416 
0.416144671 
0.002755617 


0.558035847 
0.692636173 
0.622554062 


0.434768242 


0.527816315 
0.573873154 


0.395798842 
1.000000000 


为 了 便于 选择 哪些 变量 是 相关 的 , 将 上 述 相关 和 矩阵 中 相关 系数 的 绝对 值 > 0.5 
的 值 画 上 下 划 线 . 


下 面 将 变量 分 组 ， 分 组 的 原则 是 : 同一 组 中 变量 之 间 的 相关 系数 尽 可 能 的 





高 ， 而 不 同 组 间 的 相关 系数 尽 可 能 的 低 . 从 相关 系数 最 大 的 变量 开始 ， 


LC( 洞 察 


力 ) 与 GSP( 理 解 能 力 ) 的 相关 系数 是 0.882, GSP 与 POT( 潜 在 能 力 ) 的 相关 系数 
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是 0.876, 而 LC 与 POT 之 间 的 相关 系数 是 0.777, 因此 ， 这 三 个 变量 可 以 看 成 一 
组 .SMS( 推 销 能 力 ) 也 应 该 包含 在 这 组 中 ， 因 为 它 与 LC 、GSP 和 POT 的 相 
关系 数 分 别 是 ， 0.818 、 0.782 和 0.754. AMB( 事 业 心 ) 也 应 在 此 组 中 ， 其 相关 
系数 分 别 是 ， 0.758 、 0.860 、 0.784 和 0.769. 进一步 研究 ， 发 现 变量 DRV (加 
驶 水 平 ) 和 SC( 自 信心 ) 也 就 在 此 组 中 . 此 组 中 各 个 变量 的 相关 系数 至 少 在 0.672 
以 上 . 

在 选择 第 二 组 的 变量 ， 按 照 同 样 的 原理 选择 FL( 求 职 信 的 形式 ) 、 EXP( 经 
验 ) 和 SUIT( 适 应 性 ), 其 相关 系数 分 别 是 : 0.548 、 0.586 和 0.693. 

第 三 组 先 选 择 KJ 交际 能 力 ) 、 LA( 讨 人 喜欢 )， 相关 系数 是 0.685, 现 选 择 
HON (诚实 ), 它 与 LA 的 相关 系数 是 0.645, 但 它 与 KJ 的 相关 系数 只 有 0.448. 由 
于 侈 部 数据 均 来 自 “ 人 ”的 打分 ， HON 变量 分 在 此 组 也 可 以 认为 是 合理 的 . 

再 看 AA( 专 业 能 力 ) 、 APP( 外 貌 ) 两 个 变量 . AA 变量 与 其 他 变量 的 相关 
系数 没有 超过 0.5, 而 APP 变量 与 其 他 变量 的 相关 系数 虽然 刚刚 超过 0.5 的 ， 但 
低 其 他 组 内 的 相关 系数 . 

最 后 得 到 五 个 组 : 

组 1: SC,LC, SMS, DRV, AMB, GSP 和 POT 
组 2: FL, EXP 和 SUIT 

组 3: LA, HON 和 KJ 

组 4: AA 

组 5: APP 

由 于 每 一 组 的 指标 基本 上 代表 了 同一 组 能 力 ， 因 此 ， 我 们 先 得 到 各 组 的 得 
分 ， 即 

















G1 = (SC+LC+SMS 十 DRV 十 AMB 十 GSP 十 POT)/7 
G。 = (FL 十 EXP 十 SUIT)/3 

G3 = (LA+HON 二 KJ)/3 

G4 = AA 

Gs = APP 


最 后 ， 每 位 申请 者 的 得 分 是 : 
AVG = (0 F004 Gri Os. 
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编写 相应 的 R 程序 (程序 名 group.R), 计算 得 到 


> attach(rt) 
> rt$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT) /7 
> rt$G2<-(FL+EXP+SUIT) /3 
> rt$G3<- (LA+HON+KJ)/3 
> rt$G4<-AA 
> rt$G5<-APP 
> AVG<-apply (rt[,16:20] ,1, mean) 
> sort(AVG, decreasing = TRUE) 
8 40 39 7 23 9 2 
9.000000 8.971429 8.914286 8.619048 8.390476 8.209524 8.066667 
22 24 16 46 5 10 20 
8.057143 8.038095 7.571429 7.533333 7.314286 7.304762 7.219048 


在 分 组 情况 下 ， 前 6 名 应 聘 者 是 : 8、40、39、7、23 和 9 号 . 
或 计算 分 组 情况 下 的 加 权 平 均 分 


WTD_AVG 一 2O1CG1 十 WoGo 和 205CT5， 


其 中 十 wz 十 … 十 ws 二 1. 


3.5 ”多 元 数据 的 图 表示 方法 


在 前 面 介绍 了 许多 数据 的 图 形 表示 方法 , 但 大 多 数 是 针对 一 、 二 元 数据 的 ， 
三 维 图 形 虽 然 能 画 出 来 , 但 并 不 方便 . 对 于 三 维 以 上 数据 如 何 来 描述 呢 ? 这 是 本 
节 要 讨论 的 问题 . 许多 统计 学 家 给 出 了 多 种 多 元 数据 的 图 示 方 法 , 但 这 方面 的 研 
究 还 处 于 不 成 熟 的 状态 ， 目 前 尚未 有 公认 的 方法 . 这 里 结合 R 软件 的 特点 ,介绍 
几 种 多 元 数据 的 图 示 方 法 . 

设 变量 是 2 维 数据 ， 有 7 个 观测 数据 ， 其 中 第 次 的 观测 值 为 


Xk = (Tl, Tk2, ,Tkp)) 放生 
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n 次 观测 数据 组 成 矩阵 X = (xij)nxp: 
3.5.1 轮廓 图 


轮廓 图 由 以 下 作 图 步骤 完成 ， 
(1) 作 直 角 坐 标 系 ， 横 坐标 取 2 个 点 ， 以 表示 2 个 变量 ; 


(2) 对 给 定 的 一 次 观测 值 ， 在 p 个 点 上 的 纵 坐 标 ( 即 高 度 ) 与 对 应 的 变量 取 
值 成 正比 ; 


(3) 连结 此 p 个 点 得 一 折线 ， 即 为 该 次 观测 值 的 一 格 轮廓 线 ; 

(4) 对 于 n 次 观测 值 ， 每 次 都 重复 上 述 步 又 ， 可 画 出 n 条 折线 ,构成 n 次 观 
测 值 的 轮廓 图 . 

编写 画 轮 廓 画 函 数 ( 函数 名 :outline.R ) 


outline <- function(x, txt = TRUE){ 








if (is.data.frame(x) == TRUE) 
x <- as.matrix(x) 
m <- nrow(x); n <- ncol(x) 
plot(c(1,n), c(min(x),max(x)), type = "n'", 
main = "The outline graph of Data", 
xlab = "Number", ylab = "Value'") 
for(i in 1:m)t 
lines(x[i,], col=i) 
if (txt == TRUE) 
k <- dimnames (x) [[1]] [i] 
text (1+(i-1)%%n, x[i,1i+(i-1)%%n] , k) 


} 
其 中 x 是 矩阵 或 数据 框 . txt 是 逻辑 变量 ， 当 txt = TRUE( 缺 省 值 ) 时 ， 绘 图 时 
给 出 观测 值 的 标号 ; 否则 (FALSE) 不 给 出 标号 . 函数 的 运行 结果 是 绘 出 n 次 观测 
值 的 轮廓 图 . 
例 3.18 为 考查 学 生 的 学 习 情 况 ， 学 校 随机 的 机 取 12 名 学 生 的 5 门 课 期 末 考 试 
的 成 绩 ， 如 表 3.7 所 示 . 画 出 12 名 学 生 学 习 成 绩 的 轮廓 图 . 
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表 3.7: 12 名 学 生 5 门 课 程 的 考试 成 绩 





本 pa 


1 100 
2 97 
3 100 
4 96 
5 78 
6 97 
7 89 
8 88 
9 84 
10 39 
11 78 
12 37 


解 : 将 数据 输入 到 数据 文件 中 (文件 名 : ”course.data )， 其 格式 为 


X1 X2 X3 X4 X5 
1 99 94 93 100 100 
2 99 88 96 99 97 
3 100 98 81 96 100 


读数 据 ， 利 用 编写 的 outline() 函数 


> X<-read.table('"course.data'") 
> source("outline.R'") 


> outline(X) 
绘 出 数据 的 轮廓 图 ， 如 图 3.14 所 示 . 


由 轮廓 图 (图 3.14) 可 以 直观 的 看 出 ， 哪 个 学 生成 绩 相 似 、 哪 些 属于 优秀 、 
哪些 中 等 、 哪 些 较 差 ; 对 各 门 课程 而 言 ， 也 可 直观 地 看 出 各 课程 成 绩 的 好 坏 和 分 
散 情 况 等 等 这 种 图 形 在 聚 类 分 析 中 类 有 帮助 . 
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The outline graph of Data 














1 3 3 4 5 
Number 
图 3.14: 12 名 学 生 5 门 课 程 的 考试 成 绩 的 轮廓 图 
3.5.2 ” 星 图 
星 图 的 作 图 步 又 是 : 


(1) 作 一 圆 ， 并 将 圆周 p 等 分 ; 

(2) 连结 圆心 和 各 分 点 ， 把 这 p 条 半径 依次 定义 为 变量 的 坐标 轴 ， 并 标 以 适 
当 的 刻度 ; 

(3) 对 给 定 的 一 次 观测 值 ， 把 p 个 变量 值 分 别 取 在 相应 的 坐标 轴 上 ， 然 后 将 
它们 连结 成 一 个 p 边 形 ; 

(4) n 次 观测 值 可 画 出 nn 个 p 边 形 . 

R 软件 包 给 出 作 星 图 的 函数 starsO 〇 , 例如 ， 画 出 例 3.18 中 12 名 学 生 学 习 
成 绩 的 星 图 ， 只 需 

> stars(X) 

就 可 画 出 星 图 ， 如 图 3.15 所 示 . 

星 图 中 水 平 轴 是 变量 Xi, 沿 逆 时 针 方向 ， 依 次 是 XX2, Xs, …… 由 于 星 图 既 像 
雷达 屏幕 上 看 到 的 图 像 ， 也 像 一 个 里 蛛 网， 因此 ， 星 图 也 称 为 雷达 图 或 蝴 蛛 图 . 
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图 3.15: 12 名 学 生 5 门 课程 的 考试 成 绩 的 星 图 


从 图 3.15 中 可 以 看 出 1 、 2 号 学 生 学 习 成 绩优 秀 ， 11 、 12 号 学 生 学 习 成 
绩 较 差 ， 而 7 、 10 号 学 生 偏 科 . 

函数 stars() 可 以 加 各 种 参数 ， 画 各 种 不 同 的 星 图 ， 其 使 用 方法 如 下 : 
stars(x, full = TRUE, scale = TRUE, radius = TRUE， 

labels = dimnames (x)[[1]], locations = NULL, 

nrow = NULL, ncol = NULL, len = 1,， 

key.loc = NULL, key.labels = dimnames(x)[[2]], key.xpd = TRUE， 

xlim = NULL, ylim = NULL, flip.labels = NULL, 





draw.segments = FALSE, col.segments = 1l:n.seg, col.stars = NA, 
axes = FALSE, frame.plot = axes, 
main = NULL, sub = NULL, xlab = "", ylab = "",， 
cex = 0.8, lwd = 0.25, lty = par("lty"), xpd = FALSE， 
mar = pmin(par ("mar'"), 
1.1+ c(2*axes+ (xlab != ""), 


2x*axest+ (ylab != ""), 1,0)), 
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add = FALSE, plot = TRUE, ...) 
其 中 x 是 矩阵 或 数据 框 ，full 是 逻辑 变量 , 如 果 full = TRUE ( 缺 省 值 ), 则 星 图 
画 成 圆 的 ; 否则 (FALSE) 画 成 上 半圆 图 形 。 scale 是 逻辑 变量 , 当 scale = TRUE 
( 缺 省 值 ), 数据 矩阵 的 每 一 列 是 独立 的 , 并 且 每 列 的 最 大 值 为 1, 最 小 值 为 0; 否则 
(FALSE) 所 有 星 图 会 莅 在 一 起 . radius 是 逻辑 变量 ， 当 radius = TRUE ( 缺 省 
值 ), 绘 出 星 图 的 半径 构成 的 连 线 ; 否则 (FALSE) 绘 出 的 星 图 无 半径 构成 的 连 线 . 
len 是 半径 尺度 因子 ( 缺 省 值 为 1), 表明 星 图 的 比例 . key.1loc 是 一 个 由 x 与 y 
坐标 构成 的 向 量 ( 缺 省 值 为 NULL), 它 表 明 标 准星 的 的 位 置 . draw.segments 是 
逻辑 变量 ， 当 draw.segments = TRUE ( 缺 省 值 是 FALSE), 绘 出 的 星 图 是 一 段 一 
段 的 弧 ， 其 他 参数 的 使 用 方法 请 参见 在 线 帮 助 . 

调整 函数 stars() 中 的 参数 ， 可 将 例 3.18 中 12 名 学 生 学 习 成 绩 的 星 图 画 
成 另 一 种 形式 

> stars(X, full=FALSE, draw.segments = TRUE， 
key.loc = c(5,0.5), mar = c(2,0,0,0)) 

画 出 星 图 如 图 3.16 所 示 . 


Sl 








图 3.16: 12 名 学 生 5 门 课程 的 考试 成 绩 的 星 图 ( 带 参数 ) 
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3.5.3 ”调和 曲线 图 


调和 曲线 图 是 Andrews (安德鲁 斯 ) 在 1972 年 提出 来 的 三 角 表 示 法 ， 其 思想 
是 将 多 维 空间 中 的 一 个 点 对 应 于 二 维 平面 的 一 条 曲线 ， 对 于 p 维 数据 ， 假 设 X; 
是 第 7 观测 值 ， 即 








XT = (zr1, Xr2,"**， 区 
则 对 应 的 调和 曲线 是 
fr(t) = 态 二 Tr2* Sin(t) + zr3: cos(t) + zra: Sin(2t) + zrs :cos(2t)+ 


十 :十 ， —7T<t<. (3.29) 


n 次 观测 数据 对 应 n 条 曲线 ,现在 同一 张 平 面 上 就 是 一 张 调和 曲线 图 . 当 各 
变量 数据 的 数值 相差 太 悬 殊 ， 最 好 先 标 准 化 再 作 图 . 
按照 式 (3.29) 编写 画 调和 曲线 图 函数 ( 函数 名 : unison.R ) 
unison <- function(x){ 


if (is.data.frame(x) == TRUE) 





X <- as.matrix(x) 
t <- seq(-pi, pi, pi/30) 
m <- nrow(x); n<-ncol(x) 
f <- array(0, c(m,length(t))) 
for(i in 1:m){ 
f[i,] <- x[i,1]/sqrt(2) 
for( j in 2:n){ 
if (j%%2 == 0) 
f[i,] <- f[i,]+zx[i,j]*sin(j/2*t) 
else 


f[i,] <- f[i,]+x[i,j]*cos(j%/%2*t) 


} 
plot(c(-pi,pi), cl(min(f), max(f)), type = "mn"， 
main = "The Unison graph of Data", 


xlab = "t", ylab = "f(t)") 
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和 


for(i in 1:m) lines(t, f[i,] ，col = i) 
} 
其 中 x 是 矩阵 或 数据 框 ， 函数 的 输出 结果 是 调和 曲线 . 
例 3.19 画 出 例 9.18 中 12 名 学 生 学 习 成 绩 的 调和 曲线 图 . 
解 : 用 编 好 的 函数 unison() 作 图 ， 
> source('"unison.R") 
> unison(X) 


绘 出 调和 曲线 图 ， 如 图 3.17 所 示 . 


The Unison graph of Data 





f(t) 
100 
| 





-100 











图 3.17: 12 名 学 生 5 门 课程 的 调和 曲线 图 


Andrews 证 明了 三 角 式 多 项 式 图 有 许多 很 好 的 性 质 ， 这 种 图 对 聚 类 分 析 帮 
助 很 大 . 如 果 选 择 聚 类 统计 量 为 距离 ， 则 同类 的 曲线 拧 在 一 起 ， 不 同类 的 曲线 拧 
成 不 同 的 束 ， 非 常 直 观 . 

习题 三 


3.1 某 单 位 对 100 名 女生 测定 血清 总 蛋白 含量 (0/ 万 ,数据 如 下 : 
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74. 
79. 
75. 
73 . 
75 . 
70 . 
73 . 
67 . 
75 . 
73 . 


3 
5 
0 
5 
8 
4 
5 
2 
8 
5 


78 . 
75 . 
73 . 
75 . 
75 . 
72 . 
79 . 
76 . 
73 . 
79 . 


8 
6 
5 
0 
8 
0 
5 
5 
5 


5 


68 . 
75 . 
78 . 
72 . 
68 . 
76 . 
73. 
72 . 
75 . 
70 . 


计算 均值 、 方 差 标准 差 、 


汕 


本 避 A oo 0 OO 0 口 0 
一 ] 
O) 


极 差 、 
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.0 70.4 80.5 80.5 69. 
.8 72.0 72.0 72.0 74. 
.3 75.8 65.0 74.3 71. 
.3 75.8 80.3 69.7 74. 
.5 70.4 71.2 81.2 75. 
.3 76.5 77.6 67.3 72. 
.7 65.0 76.5 81.6 75 
.4 77.2 68.8 67.3 67. 
.5 73.5 73.5 72.7 81 
.5 72.7 77.2 84.3 75. 


标准 误 、 变 异 系 数 、 偏 
3.2 绘 出 习题 3.1 的 直方 图 、 密 度 估计 曲线 、 经 验 分布 图 和 QQ 图 ， 并 将 密度 
估计 曲线 与 正 态 密度 曲线 相 比较 ， 将 经 验 分 布 曲线 与 正 态 分 布 曲线 相 比 较 (其 中 
正 态 曲 线 的 均值 和 标准 差 取 习 题 3.1 计算 出 的 值 ). 


3.3 绘 出 习题 9.1 的 芭 叶 图 、 箱 线 图 ， 并 计算 五 数 总 括 . 


3.4 分 别 用 WW 检验 方法 和 Kolmogorov-Smirnov 检验 方法 检验 习题 3.1 的 数据 
是 否 服 从 正 态 分 布 . 


不 We 
3 71.2 72. 
2 69.7 68. 
3 73.5 73. 
0 70.4 68. 
0 75.0 74. 
.4 72.7 72: 
3 67.3 72. 
6 70.3 74. 
0 76.5 70. 
度 、 峰 度 ， 


心 WW NN NW OO 0 O Oa 


3.5 小 白鼠 在 接种 了 3 种 不 同 菌 型 的 伤 案 杆菌 后 的 存活 天 数 如 表 3.8 所 示 ， 


绘 出 数据 的 箱 线 图 (采用 两 种 方法 ， 一 种 是 plot 语句 ， 另 一 种 是 boxplot 语 
名 ) 来 判断 小 白鼠 被 注射 三 种 菌 型 后 的 平均 存活 天 数 有 无 显著 差异 ? 


3.6 绘 出 例 9.16 关于 三 项 指标 的 离散 图 , 从 图 中 分 析 例 3.16 的 结论 的 合理 性 . 





表 3.8: 白鼠 试验 数据 


3 2 4 
8 5 10 
6 6 7 


存活 日 数 
7 7 2 
v2 (2 
9 5 5 
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3.7 某 校 测 得 19 名 学 生 的 四 项 指标 ， 性 别 、 年 龄 、 身 高 (cm) 和 体重 ( 磅 ), 具体 


数据 由 表 3.9 所 示 . (1) 试 绘 出 体重 对 于 身高 的 散 点 图 ; 


表 3.9: 学 生 身高 、 体 重 的 数据 


01 Alice 
02 Becka 
03 Gail 
04 Karen 
05 Kathy 
06 Mary 
07 Sandy 
08 Sharon 
09 Tammy 
10 Alfred 
11 Duke 
12 Guido 


世 本 有 本 本 本 喇 呈 时 


三 扣 多 


13 James 
14 Jeffrey 
15 John 
16 Philip 
17 Robert 
18 Thomas 
19 William 


有 近 呈 的 号 





三 


况 下 ， 体 重 与 身高 的 散 点 图 ; (3) 绘 出 不 同年 龄 段 的 体重 与 身高 的 散 点 图 ; 


分 不 同性 别 和 不 同年 龄 段 的 体重 与 身高 的 散 点 图 . 


于 





体重 
84.0 
98.0 
90.0 
77.0 
84.5 
112.0 
50.5 
112.5 
102.5 
112.5 
102.5 
133.0 
83.0 
84.0 
99.5 
150.0 
128.0 
85.0 
112.0 


(2) 绘 出 不 同性 别 情 


(4) 


3.8 画 出 滩 数 2 二 7 一 273Y 十 2 一 25Yy 十 2 十 97 一 物 十 4 在 区 域 -2<7Z<3， 
一 ] < y <7 上 的 三 维 网 格 曲 面 和 二 维 等 值 线 ， 其 中 Xx 与 VY 各 点 之 间 的 间隔 为 
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0.05, 等 值 线 的 值 分 别 为 0, 1 2 39, 4, 5, 10, 15, 20 30, 40 .50 60 80 100, 共 
15 条 . ( 注 ， 在 三 维 图 形 中 选择 合适 的 角度 . ) 

3.9 用 pearson 相关 检验 法 检验 习题 3.7 中 的 身高 与 体重 是 否 相 关 . 

3.10 绘 出 例 3.17 中 18 名 求职 者 数据 的 星 图 . (1) 以 15 项 自 变量 FL，APP， 
…, SUIT 为 星 图 的 轴 (2) 以 G1, G2,"…,G5 为 星 图 的 轴 . 通过 这 些 星 图 ， 你 能 
否 说 明 应 选 哪 6 名 应 聘 者 . 为 使 星 图 能 够 充分 反映 应 聘 者 的 情况 ， 在 作 图 中 可 适 
当 调 整 各 种 参数 . 

3.11 绘 出 例 3.17 中 18 名 求职 者 数据 的 调和 曲线 ， 以 G1,G2,:…,Gs 为 自 变 


b>24 


B= 


重 ， 
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总 体 是 由 总 体 分 布 来 刻画 的 . 在 实际 问题 中 我 们 根据 问题 本 号 的 专业 知识 或 
以 往 的 经 验 或 用 适当 的 统计 方法 ， 有 时 可 以 判断 总 体 分 布 的 类 型 , 但 是 总 体 分 布 
的 参数 还 是 未 知 的 , 需要 通过 样本 来 估计 . 例如 , 为 了 研究 人 们 的 市 场 消 费 行为 ， 
要 先 搞 清楚 人 们 的 收入 状况 . 若 假 设 某 城 市 人 均 年 收入 服从 正 态 分 布 N(1,0”)， 
但 参数 上 和 o? 的 具体 取 值 并 不 知道 ， 需 要 通过 样本 来 估计 .又 如 ， 假 定 某 城市 
在 单位 时 间 ( 壁 如 一 个 月 ) 内 交通 事故 发 生 次 数 服从 Poisson 分 布 P(A), 其 中 的 
参数 和 也 是 末 知 的 , 同样 需要 用 样本 来 估计 . 根据 样本 来 估计 总 体 分 布 所 包含 的 
未 知 参 数 ， 叫 作 参 数 估计 (parametric estimation). 它 是 统计 推断 的 一 种 重要 形 
式 . 

如 何 根据 样本 的 取 值 来 寻找 这 些 参 数 的 估计 呢 ? 通常 有 两 种 形式 :一 种 称 
为 点 估计 (point estimation), 另 一 种 称 为 区 间 佑 计 (interval estimation). 点 估计 
就 是 用 一 个 统计 量 来 估计 一 个 未 知 参数 . 点 佑 计 的 优点 是 : 能 够 明确 地 告诉 人 们 
“未 知 参数 大 致 是 多 少 ”. 其 缺点 是 ， 不 能 反映 出 估计 的 可 信 程度 .区 间 估 计 是 用 
两 个 统计 量 所 构成 的 区 间 来 估计 一 个 未 知 的 参数 , 并 同时 指明 此 区 间 可 以 覆盖 住 
这 个 参数 的 可 靠 程度 (置信 度 ). 它 的 缺点 是 : 不 能 直接 地 告诉 人 们 “未 知 参 数 具 
体 是 多 少 ” 这 一 明确 的 概念 . 





4.1 点 估计 


设 总 体 X 分 布 由 有 限 个 未 知 参数 9 = (91,02,…,0m) 所 决定 ， 记 为 , 称 
0 可 能 取 值 的 范围 为 参数 空间 (parameter space), 记 作 6. 

记 /cz;0) 为 总 体 X 的 概率 密度 函数 或 分 布 律 , 独 总 体 X 分 布 为 连续 型 的 ， 
则 f(x;9) 是 概率 密度 函数 . 若 总 体 X 分 布 为 离散 型 的 ， 则 f(x;9) 是 分 布 律 . 例 
如 ， 对 于 Poisson 分 布 P(A), 9 = 入 就 是 1 维 未 知 参数 . 对 于 正 态 分 布 N (40)， 
0= (1,0”) 就 是 2 维 未 知 参数 . 

为 了 估计 总 体 X 的 参数 0, 就 要 从 总 体 X 中 抽出 一 个 样本 X1, XX2,…… ,XX 
( 即 Xi XX2,…,Xh 是 独立 同 分 布 ), 它们 的 共同 分 布 就 是 总 体 分 布 f(x;0). 为 了 估 
计 0, 需要 构造 适当 的 统计 量 0(X1, Xs,.…,X,), 它 只 依赖 于 样本 ， 不 依赖 于 未 知 
参数 . 也 就 是 说 , 一 旦 有 了 样本 Xi1, X2，，…,X， 就 可 以 计算 出 0(X1, Ko 
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的 值 ， 作 为 9 的 估计 值 ， 称 统计 量 0(X1, X2,.…, X) 为 9 的 估计 ， 简 记 为 0. 
为 未 知 参数 9 和 估计 0 都 是 空间 上 的 点 ， 因 此 称 这 样 的 估计 为 点 估计 .寻找 点 
估计 的 常用 方法 有 : 和 矩 法 、 极 大 似 然 法 和 最 小 二 乘法 等 . 
4.1.1 算法 

算法 (method of moments) 是 由 英国 统计 学 家 K . Pearson 在 20 世纪 初 提 
出 来 的 ， 它 的 中 心思 想 就 是 用 样本 矩 去 估计 总 体 甜 . 

设 总 体 X 的 分 布 中 的 未 知 参数 为 9 = (01, 的 ,…, 6)”, 假定 总 体 X 的 大 阶 

E(X*) = ax(01,02,..,0n), k=1,2,...,m 


存在 ， 我 们 令 总 体 的 上 阶 原 点 矩 等 于 它 样本 的 阶 原点 矩 


即 


1 Nn 
ak(0 0 ,gm) = E(X*) = = = Ax, k=1,2,...,m. (4.1) 
i=1 


由 方程 (4.1) 可 以 得 到 关于 未 知 量 9 的 解 


入 入 


0; = 0;(X1, X2,:, Xn) 证 一 1 2 … 770. (4.2) 
取 0 = (01,02,…,9m)7 作 为 9 = (91,02,…, 9m)” 的 估计 ， 则 称 0 为 9 的 矩 估计 
(estimation by moments), 用 惩 佑 计 参 数 的 方法 称 为 窍 法 . 
样本 ， 试 用 失 方 法 估计 均值 ,和 方差 07. 
解 : 计算 总 体 X 的 一 阶 、 二 阶 原点 抵 
a 
a2 = BE(X*)= Var(X)+[E(X) ”=o +p. 


和 样本 的 一 阶 、 二 阶 原点 矩 


Ai= J 42 = 1 Sx? 
i=1 i 二 1 
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由 式 (4.1) 得 到 方程 组 
多 一 从， 


2 一 工 
解 上 述 方程 组 得 到 均值 / 和 方差 0? 的 矩 估计 


p= (4.3) 


62 = a -Sg = (4.4) 
需要 特别 注意 的 是 : 方差 的 和 矩 估计 并 不 等 于 样本 方差 52, 而 是 有 如 下 关系 式 
“2 聊 一 1 
a S°. (4.5) 
对 于 正 态 分 布 NU o ), 因为 人 和 分 别 为 总 体 的 均值 和 方差 ， 由 式 (4.3) 
和 式 (4.4) 得 到 参数 /和 o? 的 和 矩 估计 





从 上 述 过 程 ， 可 以 看 到 ， 利 用 冠 法 估计 均值 和 方差 .就 等 价 于 用 样本 的 一 阶 
原点 矩 佑 计 均 值 ， 用 样本 的 二 阶 中 心 抢 估计 方差 . 
例 4.2 设 总 体 X 服从 指数 分 布 ， 密 度 函 数 是 


0 Z < 0， 


其 中 入 是 未 知 参数 . 车 XX1,X2,…,Xn 来 自 总 体 六 的 一 个 样本 ， 试 用 和 矩 估 法 估 
计 参 数 入 . 
解 : 指数 分 布 的 一 阶 窍 (均值 ) 是 1/ 和 , 因此 ， 它 的 估计 是 


Ds 
i=1 


Xn 是 总 体 久 的 一 个 样本 ， 试 用 和 矩 法 估计 参数 0. 
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解 : 均匀 分 布 的 一 阶 矩 (均值 ) 是 9/2, 因此 ， 它 的 估计 是 


例 4.4 设 总 体 X 是 区 间 [a, 8] 上 的 均 习 分 布 ， 其 中 a, 0 是 未 知 参数 ， X1， X2， 
…， Xn 是 总 体 闪 的 一 个 样本 ， 试 用 纸 估 法 估计 参数 a 和 1 
解 : 由 例 4.1 的 计算 过 程 ( 式 (4.3)-(4.4) ) 可 知 , 用 一 、 二 阶 原 点 算 作 合计 ， 
本 质 上 相当 用 一 阶 原点 估计 均值 ， 二 阶 中 心算 估计 方差 ， 即 
1 1 二 
E(X) = Ai= 2 Var(X) = M2 = = 2 (Xi a 


i 二 1 


均匀 分 布 的 均值 是 (5 一 a)/2, 方差 是 (5 一 a)”/12, 所 以 令 








人 0 
2 13 
解 上 述 方程 组 得 到 a 和 5 的 估计 分 别 为 
6 = V3M, b=X+V3M. (4.6) 


如 果 不 能 得 到 方程 (4.1) 解 的 解析 表达 式 ， 则 可 以 通过 数值 的 方法 求解 方程 
(4.0), 得 到 相应 的 矩 估计 ， 
例 4.5 设 总 体 X 服从 二 项 分 布 B(k,p), 其 中 ,p 为 未 知 参数 ， XXX 
是 总 体 X 的 一 个 样本 ， 求 参数 ,p 的 矩 估计 此 , 育 . 

解 : 尽管 本 例 可 以 得 到 方程 (4.1) 解 的 解析 表达 式 ， 但 为 了 演示 数值 计算 的 
过 程 和 比较 数值 计算 的 精确 程度 ， 这 里 还 是 采用 数值 计算 的 方法 进行 从 估计 . 

二 项 分 布 的 均值 总体 一 阶 原 点 矩 ) 是 kp, 方差 总体 二 阶 中 心 矩 ) 是 kp(1 一 
Dp). 建立 方程 组 





kp—X=0, kp(l1—p)— M,=0. (4.7) 
编写 相应 的 R 函数 (程序 名 : ”moment_fun.R) 


moment_fun<-function(p){ 
f<-c(p[1i]*p[2]-A1, p[i]j*p[2]-p[1]*p[2] “2-M2) 
J<-matrix(c(p[2] , pli1], 
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p[2]-p[2] “2, p[1]-2*p[1]*p[2]), 
nrow=2, byrow=T) 
list(f=f, J=J) 
} 
其 中 p[1] 表示 参数 六 p[2] 表示 参数 p, £ 是 由 方程 (4.7) 左 端 构造 的 函数 ， J 
为 函数 £ 的 Jacobi 矩阵 . 
考虑 用 Newton 法 ( 见 第 二 章 2.9.3 节 ) 求解 非 线性 方程 组 (4.7), 其 中 样本 取 
值 由 随机 数 产 生 . 建立 矩 佑 计 的 R 函数 (程序 名 :moment_estimate.R) 
x<-rbinom(100, 20, 0.7); n<-length(x) 
Ai<-mean(x); M2<-(n-1)/n*var(x) 
source('"moment_fun.R"); source('"Newtons.R'") 
p<-c(10,0.5); Newtons(moment_fun, p) 
在 程序 中 ， 第 一 句 是 产生 100 个 天 = 20, p = 0.7 的 二 项 分 布 的 随机 数 ， 第 
二 句 是 计算 样本 均值 (样本 一 阶 原点 矩 ) 和 样本 二 阶 中 心 矩 ， 第 三 句 是 调 入 已 编 
好 的 程序 moment_fun.R 和 Newtons.R, 其 中 source() 语句 是 已 编 好 的 程序 调 
入 内 存 ， 其 使 用 格式 是 : 
source("FileName") 
文件 名 ("FileName") 中 可 以 包含 文件 的 路 径 . 
最 后 一 句 是 给 出 初 值 ， 调 用 Newton 法 计算 方程 的 根 ， 其 计算 结果 如 下 
$root 
[1] 19.4957061 0.7237491 
$it 
[1] 11 
$index 
[法 
$FunVal 
[1] 0.000000e+00 -2.220446e-15 
经 过 11 次 迭代 ， 得 到 计算 结果 . 
下 面 给 出 方程 (4.7) 解析 解 的 计算 结果 





一 一 2 Po 
闷 XK-M. 
k=— = 19.49571， = 二 一 — 
XX- M, 


= 0.7237491 
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两 考 比较 ， 误 差 是 很 小 的 . 

此 例 表 明 ， 在 无 法 得 到 方程 (4.1) 解析 解 的 情况 下 ， 利 用 数值 计算 ， 得 到 数 
值 解 也 不 失 一 种 较 好 的 方法 . 

通过 上 述 的 例子 可 以 看 出 ， 矩 法 的 优点 是 : 在 其 能 用 的 情况 下 ,计算 往往 很 
简单 .但 矩 法 相对 其 他 估计 方法 ， 如 极 大 似 然 法 ， 其 效率 往往 较 低 . 


4.1.2 ” 极 大 似 然 法 


极 大 似 然 法 是 Fisher( 费 希 尔 ) 在 1912 年 提出 的 一 种 应 用 非常 广泛 的 参数 佑 
计 方 法 ， 其 思想 始 于 Gauss 的 误差 理论 ， 它 具有 很 多 优良 的 性 质 . 它 充 分 利用 总 
体 分 布 函数 的 信息 ， 克 服 了 和 矩 法 的 某 些 不 足 . 
设 9 是 参数 空间 ， 参 数 9 可 取 9 的 所 有 值 ， 在 给 定 样本 的 观察 值 (x1, x2， 
… Tn) 后 ， 不 同 的 0 对 应 于 (Xi1, X2, +, Xn) 落 入 (Z1 T2, np) 的 邻 域内 的 
概率 大 小 不 同 ， 既 然 在 一 次 试验 中 就 观察 到 了 (Xi1, XX2, …, Xn) 的 取 值 为 (Z1， 
ZT2，…， Zn), 因此 ， 可 以 认为 0 是 最 有 可 能 来 源 于 使 (Xi X2，……， Xn) 落 入 (1， 
z2; …， Zn) 邻 域内 的 概率 达到 最 大 者 0, 即 


TI f(xi;0 0) -spII7 (zxi; 0). (4.8) 
i=1 


O<9 ; 


取 0 作为 0 的 估计 ， 这 就 是 极 大 似 然 原理 . 

注意 到 ， 当 X 为 连续 型 随机 变量 时 ， 式 (4.8) 中 的 f(zwi;9) 是 参数 的 取 值 为 
0 时 ，xX 的 概率 密度 函数 在 x; 处 的 取 值 ， 当 X 为 离散 型 随机 变量 时 ， f(xi; 0) 
为 参数 9 时 ， XX 取 zi 的 概率 (分 布 律 ). 
定义 4.1 设 总 体 X 的 概率 密度 函数 或 分 布 律 为 zi 0 € 日 是 未 知 参数 ， 
XX1, Xo,……, Xn 来 自 总 体 X 的 样本 ， 称 


DlOm) = D (0 vn) = | | te) 


为 0 的 似 然 济 数 (likelihood function). 

显然 ， 奉 样本 取 值 x 固定 时 ， L(9; zx) 是 0 的 函数 者 参数 0 固定 ， 当 XX 
为 连续 型 随机 变量 时 ， 它 就 是 样本 (Xi, X2,.…, Xn) 的 联合 概率 密度 函数 ， 当 六 
为 离散 型 随机 变量 时 ， 它 就 是 样本 (X1, X2,.……, XX) 的 联合 分 布 律 . 
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定义 4.2 设 总 体 X 的 概率 密度 函数 或 分 布 律 为 Flz;0)，b € 日 是 未 知 参数 ， 
Xi Xo，,…， Xn 来 自 总 体 XX 的 样本 ， 工 (0;7] 为 9 的 似 然 画 数 ， 若 0 = 0(X) 
= 0(X1, Xz,……, Xn) 是 一 个 统计 量 且 满足 
L(O(X);X) = sup L(0; X), 
EQ 
则 称 6(CX) 为 9 的 极 大 似 然 估计 (mazrimum likelihood estimation), 简 记 为 MLE. 
用 极 大 似 然 佑 计 来 估计 参数 的 方法 为 称 极 大 似 然 法 . 
下 面 分 不 同情 况 介 绍 极 大 似 然 法 的 求解 过 程 . 
(1) 似 然 函数 Z(0;X) 为 0 的 连续 函数 ， 且 关于 0 的 各 分 量 的 偏 导数 存在 . 
设 9 是 m 维 变量 ， 且 6 C R" 为 开 区 域 ， 则 由 极 值 的 一 阶 必要 条 件 ， 得 到 
OL(0; X) 
00; 
通常 称 式 (4.9) 为 似 然 方程 由 于 独立 同 分 布 的 样本 的 似 然 函数 Z(0;X) 具有 连 
乘积 的 形式 ， 故 对 L(0; 六 ) 取 对 数 后 再 求 偏 导数 是 方便 的 ， 因 此 实用 上 常 采 用 与 
(4.9) 等 价 的 形式 








0 .Be 0 (4.9) 





OlnL(0;X) 
OU 

称 式 (4.10) 为 对 数 似 然 方程 (loglikelihood equation). 

值得 注意 的 是 : 由 极 值 的 必要 条 件 知 , 极 大 似 然 佑 计 一 定 是 似 然 方 程 或 对 数 
似 然 方 程 的 解 ， 但 似 然 方程 或 对 数 似 然 方程 的 解 未 必 都 是 极 大 似 然 佑 计 . 严格 地 
讲 ， 似 然 函 数 L(9; 关 ) 或 对 数 似 然 函 数 ZX) 对 于 参数 0 的 二 阶 Hesse 矩阵 
V3L(0;X) 或 V3InL(0;X) 负 定 ( 若 0 是 一 元 变量 ， 2 < 0 或 公转 < 
0), 则 似 然 方程 或 对 数 似 然 方程 的 解 才 是 极 大 似 然 佑 计 . 
例 4.6 设 总 体 X 服从 正 态 分 布 N(1,0”), 其 中 10” 为 未 知 参 数 ，X1, XX2，……… ,Xn 
是 来 自 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 (4,07). 

解 ， 正 态 分 布 的 似 然 函数 为 


1 
L(p,0°; 7) -II Qi NO (2ro” ) 2 exp 二 2 (cr -中 | ) 


相应 的 对 数 似 然 函数 为 


=0, 1=1,2,...,m. (4.10) 





Ds 2 1 2 
InL(4,0°;7) = -5 ln(27o ) 一 op 一 内) 


2 一 工 


198 第 四 章 参数 估计 


人 
OlnL(p,o’;z) 1 
0 

四 记 1 
90lmn7( ao2;7) n 1 > 
ne 


解 此 似 然 方 程 组 得 到 |: 


是 负 定 矩阵 ， 所 以 EG -De -中 ] 是 L(y,0”;z) 的 极 大 值 点 . 故 (1 a? 
2 
极 大 似 然 佑 计 是 
1 i 
h=7D X=R, = -6 


与 例 4.1 相 比 较 ， 两 者 的 计算 结果 是 相同 的 . 
例 4.7 设 总 体 大 的 服从 指数 分 布 ， 密 度 函 数 是 
| Ne”, xz>0, 


0 Z < 0， 


f(z) = 


) 的 


其 中 入 是 未 知 参数 . 车 1,X2,…,，Xn 来 自 总 体 区 的 一 个 样本 ， 试 用 极 大 似 然 


估计 求 参 数 入. 
解 : 只 考虑 z; > 0 部 分 ， 指 数 分 布 的 似 然 函 数 为 


nN 


LX;z) = f(zi;N) -ep |- 2 


i 二 1 


相应 的 对 数 似 然 函数 为 


In L(A; Zz) 一 mnA 一 入 >》 zi 


?一 1 
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今 
Oln L(A;z) 
0 
解 此 似 然 方 程 组 得 到 ， ， 
和 =n Ti. 
/> 
由 于 二 了 全 一世 <0, 因 此 ，n/ Dz 是 LOiz) 的 极 大 值 点 故 和 的 
i=1 


极 大 似 然 估计 是 %/ DX 


与 例 4.2 相 比 较 ， 两 者 的 计算 结果 也 是 相同 的 . 

(2) 似 然 函数 LUb;7) 关于 0 有 间断 点 . 

当 6 为 Rm 中 的 开 区 域 ， 此 时 求 似 然 方 程 组 解 的 方法 不 适用 ， 要 具体 问题 
具体 分 析 . 
例 4.8 设 总 体 X 是 区 间 [a, 站 上 的 均匀 分 布 ， 其 中 a, b 是 未 知 参数 ， X1，X2， 
…， XX 是 总 体 X 的 一 个 样本 ， 试 用 极 大 似 然 法 估计 参数 a 入. 


解 : 对 于 样本 Xi1, X2，…,Xn 其 似 然 函数 为 
1 


L(a,b;7) = | 0 —a)" 
0, 其 它 . 
很 显然 ，L(a,5; zx) 不 是 (a,0) 的 连续 函数 ,因此 不 能 用 似 然 方程 组 (4.10) 求解 ， 
而 必需 从 极 大 似 然 估计 的 定义 出 发 来 求 L(a,2; 7x) 的 最 大 值 . 为 了 使 L(a,b;x) 达 
到 最 大 ， 则 5 一 a 应 该 尽 可 能 的 小 ， 但 5b 不 能 小 于 max{z1, XY2,……, Xn}; 否则 
L(a,b;7X) 二 0. 类似 地 ，a 不 能 大 于 min{zi, za Zn 因此 ，a 和 "的 极 大 似 
然 估计 为 


Wa mo .0a (Xi Xn Xi 


) 若 w<zi 挟 由 i= 1,2,..……,n, 


同样 的 理由 ， 若 用 极 大 似 然 法 佑 计 例 4.5 中 的 9, 得 到 的 结果 是 
0 = Xn). 


对 于 这 两 个 例子 ， 极 大 似 然 法 与 矩 法 估计 出 的 值 是 不 相同 的 
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(3) 9 为 离散 参数 空间 . 

在 此 情况 下 ， 为 求 极 大 似 然 估计 ， 经 常 考 虑 参数 取 相 邻 的 值 时 ， 似 然 函 数 的 
比值 . 
例 4.9 在 鱼池 中 随机 地 捕捞 500 条 鱼 , 做 上 记号 后 再 放 入 池 中 , 待 充分 混合 后 ， 
再 捕捞 1000 条 ， 结 采 发 现 其 中 有 72 条 鱼 带 有 记号 . 试问 鱼池 中 可 能 有 多 少 条 
鱼 ? 

解 ， 先 将 问题 一 般 化 ， 设 池 中 用 条 鱼 ， 其 中 7 条 人 带 有 记号 ， 随 机 地 捕捞 
到 s 条 ， 发 现 z 条 带 有 记号 ， 用 上 述 信息 来 估计 N. 

用 和 记 捕 捞 到 的 s 条 鱼 中 带 有 记号 的 鱼 数 ， 则 有 
CrCY 


P{X = 72x}= Ge 
N 





因此 ， 似 然 函 数 为 
LUNiz) = P{X =2), 
考虑 似 然 函 数 的 比 


(N) = LNiz) (Ns(N-r) NM 一 (rr+s)N+rs 
YN-lz NMN-r-s+z NIr+s)NT+TZN 


当 rs>ZN 时 ， 有 9(V)>1 当 rs<2zZN 时 ,有 9COV)<1. 即 
L(N:x) > L(N — 1;2), 当 N < 一 ， 
he en 当 N > 二 


因此 ， 似 然 函数 L(N;z) 在 N = 一 附近 达到 极 大 ， 注 意 到 N 只 取 正 整数 ， 易 
得 N 的 极 大 似 然 估计 为 ， 

人 TS 

ss 


其，] 表示 下 取 台 ， 即 小 于 该 人 的 最 大 星 数 
将 题目 中 的 数字 代入 ,得 到 信 -| 
估计 为 6944 条 . 
(4) 如 果 在 解 (对 数 ) 似 然 方程 时 无 法 得 到 解析 表达 式 ， 只 能 采用 数值 方法 . 


jE 6944 即 鱼池 中 鱼 的 总 数 
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例 4.10 设 总 体 X 服从 Cauchy 分 布 ， 其 概率 密度 函数 为 


f(zx;0) = a s 


rite 


其 中 0 为 未 知 参数 。 X1，X2，.…，X 来 自 总 体 X 的 样本 ， 求 9 的 极 大 似 然 人 
计 . 
解 ，Cauchy 分 布 的 似 然 函数 为 


n 


Do | | (0 - 却 [[ i 


i=1 i=1 


相应 的 对 数 似 然 函数 为 
lInL(0;7) = —nln(7)— > hn (1 + (xi— 0)’), (4.11) 
i=1 
得 到 对 数 似 然 方 程 
” 1 一 0 ee 
Ee 0. (4.12) 


可 以 看 到 ， 得 到 对 数 似 然 方程 (4.12) 的 解析 解 是 困难 的 ， 下 面 考虑 用 R 软 
件 求 数值 解 . 
在 第 二 章 (2.9.1 节 ) 介绍 了 方程 求 根 函 数 uniroot (), 这 里 用 它 求 似 然 方 程 
(4.12) 的 根 ， 关 于 样本 X 的 取 值 用 随机 数 产 生 . 
> x <- Tcauchy(1000 ,1) 
> f <- function(p) sum((x-p)/(1i+(x-p) “2)) 
> out <- uniroot(f, c(0, 5)) 
在 程序 中 ， 第 一 句 是 产生 1000 个 参数 9 = 1 的 随机 数 ， 第 二 句 写 出 似 然 方程 
(4.12) 对 应 的 函数 ， 第 三 句 是 用 求 根 函 数 uniroot () 求 似 然 方程 在 区 间 (0,5) 内 
的 根 ， 其 计算 结果 为 


> out 





$root 

[1] 1.049538 

$f .root 

[1] -0.006061751 
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$iter 
[1] 5 
$estim.prec 
[1] 6.103516e-05 
在 计算 结果 中 ，$root 是 方程 根 的 近似 解 , 即 估计 值 为 6 = 1.049538. $f .root 是 
函数 f 在 近似 值 处 的 函数 值 ，$iter 的 碗 代 次 数 , 即 用 了 5 次 杰 代 . $estim.prec 
是 近似 解 与 精确 解 的 误差 估计 ， 即 近似 解 与 精确 解 误 差 的 绝对 值 不 超过 6.104 x 
10-5. 
函数 uniroot () 的 一 般 使 用 格式 为 
uniroot(f, interval, 
lower = min(interval), upper = max(interval), 
tol = .Machine$double.eps*0.25, maxiter = 1000, ...) 
其 中 f 是 所 求 方程 的 函数 。 interval 是 包含 有 方程 根 的 初始 区 间 . lower 是 
初始 区 间 的 左 端点 ， upper 是 初始 区 间 的 右 端点 . tol 是 计算 精度 ， maxiter 
是 最 大 迭代 次 数 ( 缺 省 值 为 1000). 
前 面 讨论 的 是 如 何 用 R 软件 中 的 函数 求 ( 对 数 ) 似 然 方 程 的 根 ， 事实 上 ， 也 
可 以 直接 用 R 软件 中 的 函数 求 (对 数 ) 似 然 函 数 的 极 值 . 
及 软件 中 函数 optimize() (或 optimise()) 可 直接 求 一 维 变量 函数 的 极 小 
点 ， 这 里 用 它 求 对 数 似 然 函 数 (4.11) 的 极 值 点 ， 其 程序 如 下 
> loglike <- function(p) sum(log(1+(Xx-p) 2) ) 
> out <- optimize(loglike, c(0, 5)) 
在 程序 中 ， 第 一 句 是 对 数 似 然 函数 (4.11)( 略 去 常数 项 ， 由 于 求 极 小 ， 加 一 个 负 
号 ) 第 二 句 是 用 函数 optimize() 求 函 数 loglike 在 区 间 (0,5) 上 的 极 小 点 . 
其 计算 结果 为 
> out 
$minimum 
[1] 1.049513 
$objective 
[1] 1303.192 
在 计算 结果 中 ， $minimunm 是 极 小 点 的 近似 解 ， 即 估计 值 为 9 = 1.049513. 
$objective 是 目标 函数 在 近似 解 处 的 函数 值 . 
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与 求 似 然 方程 根 的 方法 比较 ,两 者 的 计算 结果 相差 不 大 . 事实 上 ， 求 似 然 方 
程 根 的 方法 可 能 更 准确 一 些 ,但 此 方法 需要 先 求 导数 ， 这 对 于 较为 复杂 的 函数 ， 
可 能 会 带 来 一 定 的 困难 . 

函数 optimize() (和 optimise()) 的 一 般 用 法 是 : 


optimize(f = , interval = ,， lower = min(interval), 








upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps*0.25, ...) 
optimise(f = , interval = ,， lower = min(interval), 
upper = max(interval), maximum = FALSE， 
tol = .Machine$double.eps*0.25, ...) 
其 中 f 是 求 极 小 的 目标 函数 . interval 是 包含 有 极 小 的 初始 区 间 . lower 是 
初始 区 间 的 左 端 点 ， upper 是 初始 区 间 的 右 端 点 . maximum 是 逻辑 变量 ， 如 果 
maximum = FALSE( 缺 省 值 ) 表示 求 函 数 极 小 值 点 ;否则 (maximum = TRUE) 表示 
求 函 数 的 极 大 值 点 . tol 是 计算 精度 . 
当 未 知 参 数 0 是 多 元 变量 时 ， 极 大 似 然 法 求解 的 数值 方法 要 适用 于 多 变量 
函数 . 例如 ， 可 以 用 Newton 法 ( 见 第 二 章 的 2.9.3 市 ) 求解 对 数 似 然 方 程 (4.10). 
也 可 以 用 R 软件 中 的 nlm() 函数 直接 求解 无 约束 问题 


min L(0;7X) 或 min ln L(0; x), 


这 里 z 是 随机 变量 X 的 取 值 . 

为 了 了 解 nlm 淆 数 求 多 元 函数 极 小 的 方法 , 这 里 简单 介绍 如 何 用 函数 nlm() 
求 多 变量 函数 f(x) 的 极 小 值 点 ， 有 关 nlm() 函数 在 统计 中 的 使 用 ， 将 会 在 第 六 
章 的 6.7.2 节 中 有 关 非 线性 回归 的 计算 中 讲 到 . 

用 nlm() 函数 求 无 约束 优化 问题 

min f(x)= 100(x2 — 721) + (1— zi) (4.13) 

的 极 小 点 ， 取 初始 点 zt0 = (一 1.2,1)7. 称 函 数 (4.13) 为 Rosenbrock 函数 ， 或 橡 
胶 函 数 . 

写 出 目标 函数 (程序 名 Rosenbrock .R)， 


obj<-function(x){ 
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f<-c(10*(x[2] -x[1] “2), 1-x[1]) 
sum(f “2) 
} 
将 函数 调 入 内 存 ， 再 调用 nlm() 函数 求解 
> source("Rosenbrock.R") 
> xO0<-c(-1.2,1); nlm(obj,x0) 
其 中 x0 是 初始 值 ， 得 到 
$minimum 
[1] 3.973766e-12 
$estimate 
[1] 0.999998 0.999996 
$gradient 
[1] -6.539275e-07 3.335996e-07 
$code 
[1] 1 
$iterations 


[1] 23 


其 中 $minimum 是 函数 的 最 优 目标 值 ， 即 f* = 3.973766 x 10- .$estimate 是 
最 优点 的 估计 值 ， 即 x* = (0.999998, 0.999996)7?，$gradient 是 在 最 优点 处 ( 佑 
计 值 ) 目标 函数 梯度 值 ， 即 Vf* = (一 6.539275 x 10- 7",3.335996 x 10-7)7. $code 
是 指标 ， 这 里 是 1, 表示 选 代 成 功 ， $iterations 是 渤 代 次 数 ， 这 里 是 23, 表示 
进行 了 23 次 交代 . 

实际 上 ， Rosenbrock 函数 的 最 优点 是 x* = (11)7， 最 优 目标 函数 值 为 
f(x*)=0. 

通过 上 述 分 析 和 相应 的 例子 ， 可 以 得 到 : 矩 法 的 优点 是 简单 ， 只 需 知道 总 体 
的 矩 ， 总 体 的 分 布 形 式 不 必 知 道 , 而 极 大 似 然 法 则 必须 知道 总 体 分 布 形 式 ， 并 且 
在 一 般 情 况 下 ， 似 然 方程 组 的 求解 较为 复杂 , 往往 需要 在 计算 机 上 通过 迭代 运算 
才能 计算 出 其 近似 解 . 

在 上 述 例 子 中 ,分 别 用 甜 法 和 极 大 似 然 法 对 正 态 分 布 和 均匀 分 布 的 参数 进 
行 估计 ,在 所 得 到 的 佑 计 中 ， 对 于 正 态 分 布 ， 两 种 方法 得 到 的 参数 估计 值 是 一 致 
的 ， 而 对 均匀 分 布 ， 两 种 方法 得 到 的 参数 估计 值 不 一 样 ， 对 某 种 参数 进行 估计 ， 
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究竟 哪 种 好 呢 ? 下 面 给 出 佑 计量 的 优良 性 的 判别 准则 


4.2 估计 量 的 优 民 性 准则 


从 前 面 两 节 的 讨论 中 可 以 看 到 ， 对 总 体 中 同一 参数 0, 采用 不 同 的 估计 方法 
得 到 的 估计 量 9 可 能 是 一 样 的 ， 但 对 于 大 多 数 情 况 是 不 一 样 的 例如， 对 于 均匀 
分 布 Ula, 路 参数 佑 计 的 算法 与 极 大 似 然 法 佑 计 的 结果 是 不 同 的 ,究竟 如 何 选 择 
“ 较 好 ”的 佑 计量 呢 ? 即 如 何 评 价 估计 量 的 优 劣 ? 这 里 简单 介绍 评价 佑 计量 优 劣 
的 准则 一 估计 量 的 无 偏 性 、 有 效 性 和 相合 性 (一致 性 ). 


4.2.1 无 偏 估计 


估计 量 是 随机 变量 ， 对 于 不 同 的 样本 值 就 会 得 到 不 同 的 估计 值 . 这 样 ， 要 确 
定 一 个 估计 量 的 好 坏 ， 就 不 能 仅仅 依据 某 次 抽样 的 结果 来 衡量 ， 而 必须 由 多 次 抽 
样 的 结果 来 衡量 . 对 此 ， 一 个 自然 而 基本 的 衡量 标准 是 要 求 估计 量 无 系统 偏差， 
也 就 是 说 ， 尽 管 在 一 次 抽样 申 得 到 的 估计 值 不 一 定 恰好 等 于 待 估 参 数 的 真 值 ， 但 
在 大 量 重复 抽样 (样本 容量 相同 ) 时 ， 所 得 到 的 估计 值 平 均 起 来 应 与 待 估 参 数 的 
真 值 相同 ， 换 句 话说 ， 希 望 估计 量 的 数学 期 望 应 等 于 未 知 参 数 的 真 值 ， 这 就 是 所 
谓 无 偏 性 的 要 求 . 这 一 直观 要 求 用 概率 语言 描述 就 是 以 下 定义 . 
定义 4.3 设 久 是 总 休 ，09 E 日 是 包含 在 总 体 X 的 分 布 中 的 待 佑 参数 ，X1, Xo， 
.…， XX 是 来 自 总 休 X 的 一 个 样本 .车 估计 量 9 二 (Xi Xo,.……, Xi) 的 数学 期 
望 刀 ( 胃 存在 ， 且 对 于 任意 0Ec 9 有 





E(0) = 0, (4.14) 


则 称 0 是 9 的 无 偏 估计 量 或 无 偏 估计 (unbiased estimate). 

称 (0) 一 9 为 以 6 作为 9 的 估计 的 系统 误差 或 偏差 .无 偏 估计 的 实际 意义 
就 是 无 系统 误差 . 

若 (0) -9 关 0, 但 当 样本 容量 n 一 co 时 ， 有 


lim [E00) = g| < (4.15) 


则 称 0 为 9 的 渐 近 无 偏 估计 . 
一 个 佑 计量 如 果 不 是 无 偏 的 ， 则 称 它 是 有 偏 倍 计量 . 
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例 4.11 设 总 体 六 Wn 加 (X*)(k 之 1) 存在 ， Xi1, Xo,…,Xn 是 
X 的 一 个 样本 ， Ak 二 一 二 > Mt 为 样本 的 上 价 原 点 证 明 : 无 论 总 体 X 服 


从 什么 分 布 ， 则 阶 样 林原 上 和 矩 4 是 天 阶 总 体 原点 和 开 ok 的 无 偏 估计 . 
证 明 : 设 X1, X2， 和 人 与 入 同 分 布 且 相互 独立 ， 故 有 


B(x R(X 1= 1,2,.……,n, 
即 有 


= 万 (3 二 1 2x SS 


特别 地 , 不 论 总 体 X 服从 什么 分 布 ， 只 要 数学 期 望 / 存在 , 必 有 E(X) = 
即 X 是 / 的 无 偏 估 计 . 
例 4.12 设 总 体 怀 的 均值 几 、 方 差 02 存在 ，1ia2? 为 未 知 参数 ， 则 0? 的 估计 量 


1x 7) 
人 二 x) 


是 有 偏 佑 计量 
证 明 : 由 于 
人 1 这 = 1 Ns 
0” = = > (太志 这) 三 人 
P(D2) = E (各 二 = (X= 
i=1 i 二 1 
和 
E(Xi?) = Var(Xi)+[E(Xi)] =0 十 1 
2 二 Var(X) 十 [EX] eS > 十 12， 
则 得 到 





1 
0 天 oa 


2 三 
BO -+p (后 +e) = 


所 以 5” 是 有 偏 的 ， 若 用 9” 去 估计 o”, 则 估计 值 平均 偏 小 ， 但 它 是 o? 的 渐 近 无 
偏 估计 . 
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对 于 样本 方差 ， 有 
2 人 2 7 ~2 
人 or 人 | 
F(59) = —— BO) -0 
i 0 








这 就 是 说 ， 样 本 方差 5? 是 总 体 方差 0? 的 无 偏 估计 . 故 一 般 都 采用 5S” 作为 总 体 
方差 o” 的 估计 量 . 





4.2.2 ”有 效 性 


在 许多 情况 下 ， 总 体 参 数 9 的 无 偏 估计 量 不 是 惟一 的 . 那么 ， 如 何 衡量 一 个 
参数 的 两 个 无 偏 估计 量 何 者 更 好 呢 ? 一 个 重要 标准 就 是 观察 它们 谁 的 取 值 更 集 
中 于 待 佑 计 参 数 的 真 值 附近 ， 即 哪 一 个 估计 量 的 方差 更 小 . 这 就 是 下 面 的 有 效 性 
定义 4.4 设 仙 二 仙 (X1,X2,…,Xn) 与 2 二 02(X1,XX2,…,XXn) 都 是 0 的 无 仿 
估计 ， 著 

Var(01) < Var(0,), 
则 称 1 比 9。 有效. 

考察 9 的 所 有 无 偏 估计 量 ， 如 果 其 中 存在 一 个 估计 量 bo 的 方差 最 小 ， 则 此 
佑 计量 应 当 最 好 , 并 称 此 估计 量 bm 为 9 的 最 小 方差 无 偏 估计 (minimum variance 
unbiased estimate). 

可 以 证 明 , 对 于 正 态 总 体 N(1,0?), (XX,5?) 是 (4,07) 的 最 小 方差 无 偏 估计 . 

有 效 性 的 意义 是 ， 用 0 估计 9 时 ， 除 无 系统 偏差 外 ， 还 要 求 估计 精度 更 高 . 
例 4.13 设 总 体 区 的 均值 J 和 方差 9” 存在 ， XX1,X2,……，Xn 是 来 自 总 体 六 
的 一 个 样本 ,证明 舍 计 时 ， 抽 = 对 = 1 Fei 二 eX 有 效 ， 其 中 








n 
> ， ci 一]1， ci > 0,7= 1,2,..…,n. 
2 一 | 


解 : 容易 验证 ， (fa) = B(fi2) = 4, 都 是 4 的 无 偏 估 计 ， 计算 方差 得 到 


Var(f) = Var(X)= 


Var(fi2) = Var oj = SD (dVar(Xi)) = 0° De 
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由 不 等 式 > 2 < DE 得 到 
记 1 
Var(M1) = 一 = 人 (> 中 <o? > c = Var(fi2), 


故 如 比 2 有 效 . 
4.2.3 ”相合 性 (一 致 性 ) 


佑 计量 9 的 无 偏 性 和 有 效 性 都 是 在 样本 容量 ”固定 的 情况 下 讨论 的 . 然而 ， 
由 于 估计 量 0(X1, X2,.……,X,) 依赖 于 样本 容量 n, 自然 会 想到 ， 一 个 好 的 估计 量 
0, 当 样本 容量 n 越 大 时 ， 由 于 关于 总 体 的 信息 也 随 之 增加 ， 该 估计 理应 越 精确 
越 可 靠 ， 特 别 是 当 n 一 ce 时， 估计 值 将 与 参数 真 值 几乎 完全 一 致 ， 这 就 是 估计 
量 的 相合 性 (或 称 为 一 致 性 )， 相 合 性 的 严格 定义 如 下 : 
定义 4.5 设 0(X1, 久 2,…, Xi) 为 未 知 参数 9 的 估计 量 ， 若 对 于 任意 0 < 日 , 当 
nn 一 00 时 ，00XX2 和) 依 概率 收敛 于 0, 即 对 任意 = > 0, 有 











lim P{|06—0| < es} = 1 


则 称 0 为 0 的 相合 估计 (consistent estimate) 量 或 一 致 估计 量 ， 并 记 为 6 2 
0(n 一 co). 


若 当 n 一 00 时 ， 人 均 方 收 伊 于 b, 即 


lim FE(0 — 0)?= 


N00 


则 称 0 为 0 的 均 方 相合 估计 量 [或 一 致 估计 量 ) 并 记 为 6 全 > O(n -oo)， 


4.3 区 间 估 计 


前 面 介绍 的 点 估计 方法 是 针对 总 体 的 某 一 末 知 参数 0, 构造 的 一 个 估计 量 
0(X1,X2,.…, Xn), 对 于 某 次 抽样 的 结果 ， 即 一 个 样本 观察 值 (zt za …，,zn), 可 
用 估计 0(z1, x2,…, zn) 作为 9 的 一 个 近似 值 ， 即 认为 6(z1, zz,zn) 交 0. 但 
是 ， 人 们 要 问 这 种 估计 的 精确 性 如 何 ? 可 信 程 度 如 何 ? 点 估计 无 法 回答 这 些 问 
题 ， 为 了 解决 这 些 间 题 ， 需 要 讨论 参数 的 区 间 估 计 . 
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定义 4.6 设 总 体 X 的 分 布 函数 F(zig) 含 未 知 参数 0， 对 于 给 定 值 a (0 < 
Q < 1), 若 由 样本 Xi，X2，…，X 确定 的 两 个 统计 量 01 (XI1,X2,…， Xi) 和 


入 


02(X1, Xo,: ,XX,,) 满足 
P {OC Xo, By ,Xn) <0< 0,(X1, Xs, J ,Xn)) 三 工 一 Q, (4.16) 


则 称 随机 区 间 (bi,b2) 是 参数 9 的 置信 度 为 1 一 a 的 置信 区 间 (confidence inter- 
val), 01 和 0 分 别称 为 置信 度 为 1 一 a 的 双 侧 置信 区 间 的 置信 下 限 与 置信 上 限 ， 
称 1 一 Qa 为 置信 和 度 或 置信 系数 . 

置信 区 间 (1, 0) 是 一 个 随机 区 间 ， 对 每 次 的 抽样 来 说 ， 往 往 有 所 不 同 ， 并 
有 时 包含 了 参数 4 有 时 不 包含 9. 但 是 ， 此 区 间 包 含 0 的 可 能 性 (置信 和 度 ) 是 
1 一 a. 显然 ,在 置信 度 一 定 的 前 提 下 置信 区 间 的 长 度 越 得， 其 精度 越 高 ， 佑 计 也 
就 越 好 ， 在 实用 中 ， 通 常 给 定 一 定 的 置信 和 度 ， 求 尽 可 能 短 的 置信 区 间 . 


4.3.1 一 个 正 态 总 体 的 情况 

假设 正 态 总 体 X ~ No Xi1, XX2,… ,Xn 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 和 度 ， X 为 样本 均值 ， 5? 为 样本 方差 . 

1. 均值 / 的 区 间 估 计 

分 别 讨论 总 体 X 的 方差 0? 已 知 和 方差 o* 未 知 两 种 情形 . 

当 o? 已 知 时 ， 由 于 





Be ~ N(0,1), (4.17) 
因此 有 二 
及 一 内 Wy 
| po < Zp 三 省 (4.18) 








其 中 Zu 为 标准 正 态 分 布 N(0,1) 上 的 a 分 位 点 ， 即 @(Zu) = 1 一 Qa. 由 式 (4.18) 
得 到 关于 均值 凡 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 


oO 一 一 0O 
Re 4.19 


当 0? 未 知 时 ， 由 于 








7T_ I RN). t(n— 1), (4.20) 
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"| 5] 
其 中 人 (mn 一 1) 表示 自由 度 为 一 1 的 为 1 分 布 上 分 位 点 ,由 式 (121) 得 到 
关于 均值 / 置信 度 为 1 - a 的 双 侧 置信 区 间 











有 oo =1—a, (4.21) 


局 = op 一 ])， 瑟 十 -op 过 0 (4.22) 
根据 公式 (4.19) 和 公式 (4.22) 写 出 总 体 方差 已 知 和 方差 未 知 两 种 情况 均值 
4 区间 估 计 的 R 程序 (程序 名 : ”interval_estimatel.R ). 
interval_estimate1l<-function(x, sigma=-1, alpha=0.05)+ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2); df<-n 
} 
elset 
tmp<-sd(x)/sqrt(n)*qt(1-alpha/2,n-1); df<-n-1 
} 
data.frame (mean=xb, df=df, a=xb-tmp, b=xb+tmp) 
} 
在 程序 中 ，x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 总 体 的 标准 
差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 正 态 分 布 计算 区 间 端 点 ， 当 标准 
差 未 知 时 ,输入 项 可 缺 省 ， 程 序 采 用 二 分 布 计算 区 间 端 点 . alpha 是 显著 性 水 
平 ， 缺 省 值 为 0.05. 函数 以 数据 框 的 形式 输出 ， 输 出 的 内 容 有 : 样本 均值 mean, 
自由 度 df 和 均值 区 间 佑 计 的 上 下 限 a,b. 
注意 : 在 R 软件 中 ， 所 有 的 分 位 点 均 是 按 下 分 位 点 计算 的 ， 而 本 书 中 的 数 
学 表达 式 所 使 用 的 分 位 点 均 是 上 分 位 点 ， 因 此 数学 表达 式 与 R 软件 中 的 函数 有 
如 下 关系 





Za = qnorm(1-alpha), ta(n—1)= qt(i-alpha, n-1). 
其 他 分 布 函数 也 相同 ， 请 注意 两 者 的 差别 ， 在 编程 中 不 要 混 消 . 
在 得 到 观测 数据 后 ， 可 以 用 此 函数 对 参数 / 作 区 间 佑 计 . 
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例 4.14 某 工厂 生产 的 零件 长 度 和 被 认为 服从 N(1,0.04), 现 从 该 产品 中 随机 机 
取 0 个， 其 长 度 的 测量 值 如 下 (单位 : 毫米 ) 

14.6, 15.1, 14.9, 14.8, 15.2, 15.1, 
试 求 该 零件 长 度 的 置信 系数 为 0.95 的 区 间 估 计 ， 

解 : 输入 数据 ， 调 用 函数 interval_estimate1() (程序 名 : ”exam0414.R) 
X<-c(14.6, 15.1,14.9, 14.8, 15.2, 15.1) 
source("interval_estimate.R") 
interval_estimate(X, sigma=0.2) 

得 到 
mean df a b 
1 14.95 6 14.78997 15.11003 
因此 ， 该 零件 长 度 的 置信 系数 为 0.95 的 置信 区 间 为 [14.79, 15.11]. 

例 4.15 为 估计 一 件 物体 的 重量 1, 将 其 称 了 10 次 ,得 到 的 重量 ( 单位， 千克 ) 
为 
10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3, 9.9, 
假设 所 称 出 的 物体 重量 服从 N(J,0”), 求 该 物体 /4 置信 系数 为 0.95 的 置信 区 

间 . 

解 : 输入 数据 ， 调 用 函数 interval_estimate1() (程序 名 : ”exam0415.R) 
X<-c(10.1, 10, 9.8, 10.5, 9.7, 10.1, 9.9, 10.2, 10.3,9.9) 
source("interval_estimate.R'") 
interval_estimate(X) 

得 到 
mean df a b 
1 10.05 9 9.877225 10.22278 
因此 ， 该 物体 1 置信 系数 为 0.95 置信 区 间 为 [9.87, 10.22]. 
R 软件 中 的 t.test 检验 函数 可 以 完成 相应 的 区 间 佑 计 工 作 ， 例 如 
> 七 .test(X) 
Une Sample t-test 
data: X 
t = 131.5854, df = 9, p-value = 4.296e-16 
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alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
9.877225 10.222775 
sample estimates: 
mean of x 


10.05 

得 到 相应 的 区 间 佑 计 |9.88, 10.22] 和 其 它 的 一 些 信息 . 注意 到 ， 由 t.test() 子 
数 得 到 的 区 间 估 计 与 我 们 编写 函数 得 到 的 区 间 佑 计 是 相同 的 , 从 这 里 可 以 帮助 大 
家 了 解 t.test() 的 计算 过 程 ， 关于 t.test() 函数 进一步 的 使 用 方法 将 在 下 一 
章 介绍 . 

2. 方差 0? 的 区 间 估 计 

分 别 讨 论 总 体 X 均值 已 知 和 均值 未知 两 种 情形 . 

当 是 已 知 时 ， 用 o? 的 极 大 似 然 佑 计 








Se 
A (4.23) 
Y=] 


来 导出 o? 的 置信 区 间 . 由 x? 分 布 的 定义 容易 推出 


2 Nn 
= DX/ ~ Yn). (4.24) 
i=1 
因此 有 
Poa) < Sn} 1- (4.25) 





其 中 襄 s(n) 和 x2js(n) 分 别 表示 自由 度 为 的 为 x? 一 分布 上 1 一 a/2 和 a/2 
分 位 点 ， 由 此 得 到 o? 的 置信 度 为 1 一 a 的 双 侧 置信 区 间 


EE = (4.26) 


Xaaln) Xi s(n 
当 是 未 知 时 ， 0? 的 极 大 似 然 估 计 
六 二 二 > (Xi — x)’ 


一 计 
人 i=1 
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且 满 足 





3 ~ x no 1), (4.27) 
因此 ， 有 





其 中 好 on 一 1) 和 局 s(n 一 1) 分 别 表示 自由 度 为 nn 一 1 的 为 一 分 布 上 
1 a/2 和 a/2 分 位 点 ， 由 此 得 到 0? 的 置信 度 为 1 - a 的 双 侧 置信 区 间 


时 | 


| (4.28) 
X32 = 1) XT 1) 


根据 公式 (4.26) 和 公式 (4.28) 写 出 总 体 均 值 已 知 和 均值 未 知 两 种 情况 方差 
02 区 间 估 计 的 R 程序 (程序 名 : ”interval_var1.R ) 

interval_vari<-function(x, mu=Inf, alpha=0.05){ 

n<-length (x) 
if (mu<Inf){ 

S2 <- sum((x-mu) “2)/n; df <- n 
} 
elset{ 

S2 <- var(x); df <- n-1 
} 
a<-df*S2/qchisq(1-alpha/2 ,df) 
b<-df*S2/qchisq(alpha/2,df) 
data.frame (var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 . mu 是 总 体 均值 ， 当 
均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 的 x 一 分 布 计算 区 间 端 点 . 
当 均 值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采 用 自由 度 为 n 一 1 的 x 一 分 布 计算 区 间 
端点 . 数据 输出 采用 数据 框 的 形式 , 输出 值 是 样本 方差 var, 自由 度 df 和 方差 的 
区 间 佑 计 a,，b. 

例 4.16 用 区 闻 估 计 方 法 估计 例 4.15 的 测量 误差 ( 即 方差 922 )， 分 别 对 均值 1/ 
已 知 (= 10) 和 均值 未 知 两 种 情况 进行 讨论 . 
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解 : 用 上 面 编 好 的 函数 计算 ， 
#### 输入 数据 ， 调 用 编 好 的 程序 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 
> source("interval_var1.R") 
#### 作 方差 的 区 间 估 计 ， 认 为 均值 已 知 


> interval_var1(X，mu=10) 














Var df a b 
1 0.055 10 0.02685130 0.1693885 
#### 作 方 差 的 区 间 估计 ， 认 为 均值 未 知 
> interval_varl(X) 
var df a b 
1 0.05833333 9 0.02759851 0.1944164 
当 均 值 已 知 (4 = 10) 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0268, 0.169], 当 均值 未 
知 时 ， 其 方差 o? 的 区 间 估 计 为 [0.0276, 0.194. 从 计算 结果 来 看 ， 在 均值 已 知 的 
情况 下 ， 计 算 结果 更 好 一 些 . 


4.3.2 ”两 个 正 态 总 体 的 情况 


假设 有 两 个 正 态 总 体 XX~ Vi aa 和 了 ~ N(12, 03), X1, X2, Xn 
为 来 自 总 体 X 的 一 个 样本 ， 站, Y,…, Yi 为 来 自 总 体 的 一 个 样本 ， 1 一 a 
为 置信 和 度 ， 关 , 了 分 别 为 第 一 、 第 二 样本 均值 ，S?, 52 分 别 为 第 一 、 第 二 样本 方 
差 . 
1. 均值 差 ji 一 1 的 区 间 估 计 
分 三 种 情况 讨论 . 
(1) 当 两 总 体 的 方差 ci, cz 已 知 时 ， 由 正 态 分 布 的 性 质 有 
ee Ga 2 
XY- 了 ~ NW (mbw 和 + 时)， (4.29) 
N11 N29 


类 似 于 单个 总 体 区 间 估 计 的 推导 ， 得 到 /ai 一 /2 的 置信 度 为 1 一 a 的 双 侧 置信 区 


间 : 
湛 2 2 2 
Ra 2 rv a 
N11 no Nn Nn 
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(2) 当 两 总 体 的 方差 相同 ， 即 0? = 03 = o2, 且 未 知 时 ， 可 以 得 到 


pe 
ed fe ied ee (4.31) 


/1 1 














其 中 
Se D+ (nm D2 (4.32) 
ni 十 n2 一 2 
仿照 式 (4.22) 的 推导 ， 得 到 jw 一 Ha 的 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 : 
| -Ytoa(m + na — 2)S i 
i (4.33) 
Bn ee ee | : 
(3) 当 两 总 体 的 方差 of 和 03 未 知 ， 且 of 入 co 时 ， 可 以 证 明 
i 
近似 成 立 ， 其 中 
2 (ai)” (a2)” 
有 
但 由 于 o?, 02 未 知 ， 用 样本 方差 5Y, 52 似 来 近似 ， 因 此 ， 
eS (82)? (S2)? 
A - 
可 以 近似 地 认为 
T ~ +t(9). 
由 此 得 到 ji 一 /wa 的 置信 和 度 为 1 一 a 的 双 侧 置信 区 间 : 
和 he) ,EOD se Se 2 
Rp Y —X+ta2(d) 1 , (4.37) 


根据 公式 (4.30) 、 公 式 (4.33) 和 公式 (4.37) 写 出 三 种 情况 下 均值 差 /1 一 Na 
区 间 估 计 的 R 程序 (程序 名 ”interval_estimate2.R ). 
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interval_estimate2<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, alpha=0.05){ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>=0))+ 
tmp<-qnorm(1-alpha/2)*sqrt (sigma[1] “2/nitsigma[2] “2/n2) 
df<-ni+n2 
} 
elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha/2,n1+n2-2) 
df<-n1i+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
tmp<-qt (1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 


df<-nu 


} 
data.frame (mean=xb-yb, df=df, a=xb-yb-tmp, b=xb-yb+tmp) 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . sigma 是 
由 两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 正 态 
分 布 计算 区 间 的 端点 ， 当 标准 差 未 知 时 ， 输 入 项 可 缺 省 ， 此 时 需要 考虑 两 总 体 
的 方差 是 否 相同 : 若 认 为 两 总 体 方 差 相 同 ， 输 入 var .equal = TRUE, 程序 采用 
自由 度 为 ni 十 nz 一 2 的 t= 分布 计算 区 间 端 点 ; 若 认为 两 总 体 方差 不 同 ， 输 入 
var .equal = FALSE (或 缺 省 ), 程序 采用 自由 度 为 v 的 二 分 布 计算 区 间 端 点 . 
当 7 不 是 整数 时 ， 程 序 在 计算 三 分 布 时 ， 其 值 采 用 插值 方法 得 到 . 


程序 输出 采用 数据 框 的 形式 ,输出 两 样本 均值 差 mean, 自由 度 df, 和 均值 差 
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的 区 间 估 计 的 端点 a，b. 
例 4.17 欲 比较 甲 、 乙 两 种 棉花 品种 的 优 劣 ， 现 假设 用 它们 纺 出 的 棉纱 强度 分 别 
服从 N(j1,2.182) 和 N(Hna,1.762), 试验 者 从 这 两 种 棉纱 中 分 别 机 取样 本 XI1，X2， 
…, Xi00 和 7, 2, 了 5o0 (其 数据 用 计算 机 随机 产生 ， 其 随机 数 的 均值 分 别 为 
M1 二 5.32, Ha 二 5.76). 试 给 出 Mi 一 Na 的 置信 系数 为 0.95 的 区 间 舍 计 . 
解 : 首先 用 及 软件 产生 200 个 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 ， exam_0417.R)， 
X<-ITnorm(100，5.32，2.18) 
y<-rnorm(100, 5.76, 1.76) 
source("interval_estimate2.R") 
interval_estimate2(x,y, sigma=c(2.18, 1.76)) 
得 到 计算 结果 
mean df a b 
1 -0.2549302 200 -0.80407 0.2942096 
因此 ， Ja 一 pw2 的 置信 系数 为 0.95 的 区 间 估 计 为 [一 0.804, 0.294]. 
注意 ， 由 于 数据 是 由 计算 机 随机 产生 的 ， 因此， 每 一 次 的 计算 结果 是 不 相同 
的 ， 但 总 的 趋势 是 相同 的 . 
例 4.18 某 公司 利用 两 条 自动 化 流水 线 灌 装 矿泉 水 . 现 从 生产 线 上 随机 抽取 样本 
X1 XX2,…, X12 和 六 ,了 ]y, .…, Yi7 (数据 由 计算 机 模拟 产生 )， 它 们 是 每 瓶 厂 泉 
水 的 体积 ( 写 升 )， 假设 这 两 条 流水 线 所 装 的 矿泉 水 的 体积 部 服从 正 态 分 布 ， 分 
别 为 Na 和 NN(142,0°). 给 定 置信 系数 0.95 ， 试 求 Ja 一 J2 的 区 闻 估 计 . 
讨论 两 种 情况 ， (1) 两 总 体 方差 相同 ; (2) 两 总 体 方差 不 同 . ( 注 : 计算 机 产生 
随机 数 的 均值 MI = 501.1 和 2 二 499.7, 标准 差 ol = 2.4, oz = 二 4.7. ) 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate2() 
进行 计算 (程序 名 ”exam_0418.R). 
x<-rnorm(12,501.1,2.4) 
y<-rnorm(17, 499.7, 4.7) 


source('"interval_estimate2.R") 





interval_estimate2(x, y, var.equal=TRUE) 


interval_estimate2(x, y) 


认为 方差 相同 的 计算 结果 是 
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> interval_estimate2(x, y, Var.equal=TRUE) 
mean df a b 
1 -0.7120126 27 -3.667566 2.243541 
因此 ， 在 认为 方差 相同 的 情况 下 ， Hi 一 /2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[一 3.67, 2.24|. 
认为 方差 不 同 的 计算 结果 是 
> interval_estimate2(x, y) 
mean df a b 
1 -0.7120126 23.09151 -3.344401 1.920376 
因此 ， 在 认为 方差 不 同 的 情况 下 ， /1 一 J2 的 置信 系数 为 0.95 的 区 间 佑 计 为 
[一 3.34, 1.92]. 


两 计算 结果 作 比 较 ， 可 认为 在 两 总 体 方差 不 同 的 假设 下 ， 计 算 结果 更 精确 一 








ER 


在 这 两 个 例子 中 ， yi 一 /2 的 区 间 佑 计 包 含 了 零 ， 也 就 是 说 ， Hi 可 能 大 于 
/2, 也 可 能 小 于 /2, 这 时 我 们 就 认为 1 与 1a 并 没有 显著 差异 . 
R 软件 中 的 t+.test() 函数 可 以 给 出 双 样 本 差 的 区 间 估 计 ， 如 
> t.test(x, y) 
Welch Two Sample t-test 
data: x and y 
t = -0.5594, df = 23.092, p-value = 0.5813 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.344401 1.920376 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 
由 于 没有 声明 ,在 计算 时 总 认为 两 样本 方差 是 不 同 的 . 如 果 认 为 方差 相同 ， 
需要 声明 ， 即 在 变量 中 给 出 var .equal=TRUE, 如 
> t.test(x, y, var.equal=TRUE) 
Two Sample t-test 
data: x and y 
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t = -0.4943, df = 27, p-value = 0.6251 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-3.667566 2.243541 
sample estimates: 
mean of x mean of y 
500.0234 500.7354 

比较 两 种 程序 的 计算 结果 ， 发现 由 t.test() 函数 得 到 的 计算 结果 与 我 们 编 
写 函 数 的 计算 结果 是 完全 相同 的 ， 结 合 前 面 的 例子 ， 帮 助 我 们 理解 t.test 0 〇 的 
函数 的 计算 过 程 ， 有关 t .test() 函数 的 其 他 用 法 ， 后 面 还 会 讨论 . 

2. 配对 数据 的 区 间 估 计 

因为 配对 数据 的 每 一 对 都 可 计算 其 差 值 4d, 所 以 ， 虽 然 配对 数据 是 两 组 数据 
间 的 比较 ， 但 求 出 每 一 对 差 值 后 ， 就 变 成 了 单个 样本 了 ， 其 置信 区 间 可 按 单 个 总 
体 均 值 4 的 区 间 估 计 的 方法 求 出 ， 这 里 也 可 以 分 成 方差 cz 已 知 和 方差 04 未 知 
的 情况 来 讨论 . 由 于 前 面 对 单 个 总 体 样本 均值 佑 计 讨论 的 比较 仔细 ,这 里 只 给 出 
其 应 用 方法 . 
例 4.19 为 了 调查 应 用 克 砂 平治 疗 砂 肺 的 效果 ， 今 柏 查 应 用 克 砂 平治 疗 砂 肺 的 患 
者 10 名， 记录 下 治疗 前 后 血红 有 蛋白 的 含量 数据 ， 如 表 4.1 所 示 .， 试 求治 疗 前 后 


表 4.1: 治疗 前 后 血红 蛋白 的 含量 数据 


1 2 3 4 5 6 7 8 9 10 
治疗 前 (X) | 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 


治疗 后 (Y) | 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 





变化 的 区 间 舍 计 (a = 0.05). 
解 : 输入 数据 ， 调 入 t .test() 函数 . 
> X<-c(11.3, 15.0, 15.0, 13.5, 12.8, 10.0, 11.0, 12.0, 13.0,，12.3) 
> Y<-c(14.0, 13.8, 14.0, 13.5, 13.5, 12.0, 14.7, 11.4, 13.8, 12.0) 
> t.test(X-Y) 
Une Sample t-test 
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data: X-Y 
t = -1.3066, df = 9, p-value = 0.2237 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
-1.8572881 0.4972881 
sample estimates: 
mean of x 


-0.68 
所 以 得 到 ， 治 疗 前 后 变化 的 区 间 佑 计 为 [一 1.86, 0.497]. 

由 于 0 包含 在 区 间 估 计 的 区 间 内 ,因此 可 以 认为 : 治疗 前 后 病人 血红 蛋白 的 
含量 无 显著 差异 . 关于 假设 检验 部 分 我 们 在 下 章 再 介绍 . 

3. 方差 比 of/03 的 区 间 估 计 

仍 分 总 体 均 值 ji 、 Ha 已 知 和 总 体 均 值 /1 、 Ha 未知 两 种 情况 讨论 . 

(1) pj 与 jw2 已 知 ' 此 时 





22 1 ~2_ 1 
01 = 让 2 HM) 02= se = (4.38) 


分 别 为 of 和 o 的 最 小 无 偏 估计 ， 由 于 


21/cl 





= AS F (ni, n2), (4.39) 
G03/03 
因此 ee 
O11/0 
P {Bop et Fabre) } = 
02/02 


其 中 Pi_a2(n1, ma) 和 Fa (ni1, ne2) 分 别 表 示 自 由 度 为 (n1, ma】 的 为 一 分 布 上 
1 一 Q/2 和 a/2 分 位 点 ， 因 此 ，o2/o2 的 置信 水 平 1 一 a 的 置信 区 间 为 
U3 9/3 
| | 
(2) ja 与 J2 未 知 ， 此 时 5? 和 52 分 别 为 ci 和 03 的 最 小 无 偏 估计 ， 由 于 


_ H/o 
$2/03 





og F(n 1, no 1), (4.42) 
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因此 
31/cl 
P Pi_a2(ni—1,n2—1) < 52 5 < Fani m1,n2— 1) = 1—a, (4.43) 
2/02 


则 o?/02 的 置信 水 平 1 一 a 的 置信 区 间 为 


2 2 2 2 
| S1/52 . S1/52 . (4.44) 
Falni— 1,n2—1) Pa (nN1 —1,n2—2) 


根据 公式 (4.41) 和 公式 (4.44) 写 出 上 述 两 种 情况 下 方差 比 of/02 区 间 佑 计 
的 R 程序 (程序 名 : ”interval_var2.R ). 
interval_var2<-function(x,y, 
mu=c(Inf, Inf), alpha=0.05){ 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)){ 
Sx2<-1/ni*sum((x-mu[1]) “2); Sy2<-1/n2*sum((y-mu[2]) “2) 
df1i<-ni; df2<-n2 
} 
elset 
Sx2<-var (x); Sy2<-var(y); df1l<-n1-1; df2<-n2-1 
} 
r<-Sx2/Sy2 
a<-r/gf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1,df2) 
data.frame(rate=r, df1i=df1, df2=df2,a=a, b=b) 
} 
在 程序 中 ，x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 .， mu 是 由 两 
总 体 均 值 构成 的 向量 ,， 当 均值 已 知 时 , 输入 相应 的 值 , 程序 采用 自由 度 为 (n1, m2) 
的 F- 分 布 计算 区 间 估 计 的 两 个 端点 ;否则 (输入 值 缺 省 )， 程 序 采用 自由 度 为 
Ga 一 lm2 一 DJ) 的 FE- 分 布 计 算 区 间 佑 计 的 两 个 端点 ， alpha 是 显著 性 水 平 ， 缺 
省 值 为 0.05. 输出 采用 数据 框 形式 ， 输 出 的 变量 有 样本 方差 比 rate, 第 一 自由 
度 df1, 第 二 自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，Pb. 
例 4.20 已 知 两 组 数据 
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A: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
80.05 80.03 80.02 80.00 80.02 
B: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 
试用 两 种 方法 作 方 差 比 的 区 间 舍 计 . (1) 均值 已 知 HL 二 Ha 二 80; (2) 均值 未 
知 . 
解 : 输入 数据 , 调用 隆 数 interval_var2() 进行 计算 (程序 名 : exam0419.R). 
#### 用 scan() 函数 输入 数据 
> A<-scan() 
1: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97 
9: 80.05 80.03 80.02 80.00 80.02 
14: 
Read 13 items 














> B<-scan() 

1: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97 

9: 

Read 8 items 

#### 调用 编 好 的 程序 

> source('"interval_var2.R") 

#### 方差 比 的 区 间 佑 计 ， 认 为 均值 已 知 

> interval_var2(A, B, mu=c(80,80)) 
rate df1i df2 a b 

1 0.7326007 13 8 0.1760141 2.482042 

#### 方差 比 的 区 间 佑 计 ， 认 为 均值 未 知 


> interval_var2(A, B) 


rate df1i df2 a b 
1 0.5837405 12 7 0.1251097 2.105269 
两 种 计算 结果 稍 有 差异 . 


从 计算 结果 可 以 看 到 ，1 包含 在 区 间 估 计 的 区 间 中 , 也 就 是 说 ， 有 理由 认为 
两 总 体 的 方差 比 为 1, 即 可 认为 两 总 体 的 的 方差 是 相同 的 . 
在 R 软件 中 ，var.test() 函数 能 够 提供 双 样 本 方差 比 的 区 间 估 计 ， 如 


4.3 区 间 估 计 223 


> var.test (A,B) 
F test to compare two variances 
data: A and B 
F = 0.5837, num df = 12, denom df = 7, p-value = 0.3938 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.1251097 2.1052687 
sample estimates: 
ratio of variances 
0.5837405 

与 我 们 所 编写 函数 的 计算 结果 相同 (均值 未 知 ), 从 这 里 也 可 以 帮助 我 们 理解 函数 
var .test() 的 计算 过 程 ， 有 关 var.test() 也 数 的 其 他 用 法 ， 后 面 的 内 容 中 还 
会 进行 讨论 . 
4.3.3 ” 非 正 态 总 体 的 区 间 估 计 

当 数 据 不 服从 正 态 分 布 时 , 估计 均值 的 一 种 有 效 的 方法 就 是 所 谓 的 大 样本 方 
法 ， 即 要 求 样 本 的 量 比较 大 ， 利 用 中 心 极限 定理 进行 分 析 . 

设 总 体 X 均值 为 1, 方差 为 0*, X1, XX2,…, Xn 为 抽 自 总 体 X 的 一 个 样本 . 
因为 这 些 样 本 是 独立 同 分 布 的 ， 根 据 中 心 极限 定理 ， 对 于 充分 大 的 n, 有 

Xi— nn 
i=1 
Vno 

近似 成 立 ， 这 样 就 导出 4 的 置信 度 为 1 一 a 的 双 侧 近似 置信 区 间 


~ N(0,1) 


x- A 到 十 全 2 5 
在 形式 上 ， 该 式 与 式 (4.19) 完全 相同 ， 所 不 同 的 是 这 里 的 置信 系数 是 近似 的 . 
如 果 方差 o? 是 未 知 的 ， 可 以 用 它 的 估计 3” 来 代替 o*, 由 此 得 到 相应 的 近 
似 置信 区 间 


(4.45) 





Zu]2， 六 十 La?2 ， 





9 ey 
X 一 一 一 一 4.46 
-到 Vi Ce 
根据 公式 (4.45) 和 公式 (4.46) 写 出 非 正 态 总 体 区 间 估 计 的 R 程序 (程序 


名: interval_estimate3.R ). 
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interval_estimate3<-function(x,sigma=-1,alpha=0.05){ 
n<-length(x); xb<-mean(x) 
if (sigma>=0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha/2) 
else 
tmp<-sd(x)/sqrt (n)*qnorm(1-alpha/2) 
data.frame (mean=xb, a=xb-tmp, b=xb+tmp) 

} 

在 程序 中 ，x 是 来 自 非 正 态 分 布 总 体 的 数据 (样本 ) 向 量 ， sigma 是 总 体 标 
准 差 , 当 标 准 差 已 知 时 , 输入 相应 的 标准 差 ; 当 标准 差 未 知 时 , 输入 项 缺 省 , 程序 
用 样本 的 标准 差 代 蔡 总 体 的 标准 差 . 输出 采用 数据 框 形式 ， 输 出 样本 均值 mean， 
均值 的 区 间 佑 计 的 两 个 端点 a,b. 

例 4.21 某 公 司 欲 估计 自己 生产 的 电池 寿命 ， 现 从 其 产品 中 随机 机 取 50 只 电池 
做 寿命 试验 (数据 由 计算 机 随机 产生 , 服从 均值 1/ 入 = 2.266 (单位 ，100 小 时 ) 
的 指数 分 布 )， 求 该 公司 生产 的 电池 平均 寿命 的 置信 系数 为 95% 的 置信 区 间 ， 
解 : 首先 用 R 软件 产生 相应 的 随机 数 ， 再 调用 函数 interval_estimate3() 
进行 计算 . 
> x<-rexp(50, 1/2.266) 
> source("interval_estimate3.R") 
> interval_estimate3(x) 
mean a b 


1 2.293804 1.612363 2.975244 
因此 ， 该 公司 电池 的 平均 寿命 的 置信 系数 约 为 95% 的 置信 区 间 为 [1.612, 2.975]. 





4.3.4 ” 单 侧 置 信 区 间 估 计 


对 于 某 些 问题 ， 人 们 只 关心 9 在 某 一 方向 上 的 界限 . 例如 ， 对 于 设备 、 元 件 
的 寿命 来 说 ， 我 们 常常 关心 的 是 平均 寿命 9 的 “下 限 ?， 而 当 我 们 考虑 产品 的 废 
品 率 2 时 ， 关 心 的 是 参数 p 的 “上 界 ?.， 称 这 类 区 间 佑 计 问 题 为 单 侧 区 间 佑 计 . 
定义 4.7 设 XX], Xp,……, Xn 是 来 自 总 体 的 一 个 样本 ，0 是 包含 在 总 体 分 布 中 
的 未 知 参数 ， 对 于 给 定 的 a(0 < a <1), 车 统计 量 0 = 0(X1, 义 2,.…,X) 满足 





P{0(Xi1, X2,.…, X,,) <0}=1—a, 
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则 称 随机 区 间 上 [8， 十 00) 是 0 的 置信 和 度 为 1 一 Qa 的 单 侧 置信 区 间 ， 称 4 为 0 的 
置信 和 度 为 1 一 a 的 单 侧 置信 下 限 . 车 统计 量 6 一 0(X1, Xp,……, Xn) 满足 


P{9< OXi, Xo,, Xn)}=1— oa, 

则 称 随机 区 间 (一 co, 由 是 0 的 置信 度 为 1 一 Q 的 单 侧 置 信 区 间 ， 称 0 为 0 的 置 
信 度 为 1 一 Q 的 单 侧 置信 上 限 ， 

类 似 于 双 侧 置信 区 间 估 计 的 研究 ， 对 于 给 定 的 置信 度 1 一 a, 选择 置信 下 限 
9 时 ， 应 是 (0) 越 大 越 好 ， 而 选择 置信 上 限 9 时 ， 应 是 (9) 越 小 越 好 . 

1. 一 个 总 体 求 均值 

假设 正 态 总 体 X ~ N(4,0), XX1,X2,… ,Xn 为 来 自 总 体 X 的 一 个 样本 ， 
1 一 a 为 置信 度 ， 羡 为 样本 均值 ， 3 为 样本 方差 . 

分 别 讨论 总 体 均值 0? 已 知 和 未 知情 况 下 ， 均 值 y 的 单 侧 置信 区 间 估 计 . 

车 of 已 知 ， 由 式 (4.17), 得 到 


P {TZ} =1e P{-z< -1 
是 得 到 / 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 





= [ea 一 一 0O 
x 0 十 ~) , (-= 及 十 人 (4.47) 
因此 ， 的 置信 度 为 1- a 的 单 侧 置 信 下 限 、 上 限 分 别 为 
= [ea a 一 一 0O 
用 三 扩 一 -万 4， 及 二 六 十 i (4.48) 


若 0” 未 知 ， 由 式 (4.20), 得 到 


ke -1 =e P {mn < HE) 


是 得 到 / 的 置信 和 度 为 1 - a 的 单 侧 置信 区 间 








和 i 一 1), 十 oj (-= 天 十 Le 四 . (4.49) 
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因此 ， 的 置信 和 度 为 1 一 a 的 单 侧 置 信 下 限 、 上 限 分 别 为 


&- 开 - - 霹 o -了 五 一 驴 十 nl) (4.50) 
根据 公式 (4.47) 和 公式 (4.49), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 ”interval_estimate4.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置信 
区 间 . 
interval_estimate4<-function(x, sigma=-1, side=0, alpha=0.05)1{ 
n<-length(x); xb<-mean(x) 
if (sigma>=0){ 
if (side<0) 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- -Inf; b <- Xb+tmp 
} 
else if (side>0){ 
tmp<-sigma/sqrt (n)*qnorm(1-alpha) 
a <- xb-tmp; b <- Inf 


} 
elset 
tmp <- sigma/sqrt(n)*qnorm(1-alpha/2) 
a <- xb-tmp; b <- Xb+tmp 
df<-n 
} 
elset 


if (side<0){ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- -Inf; b <- Xb+tmp 

else if (side>0)+ 
tmp <- sd(x)/sqrt(n)*qt(1-alpha,n-1) 
a <- xb-tmp; b <- Inf 
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} 
elset 
tmp <- sd(x)/sqrt(n)*qt(1-alpha/2,n-1) 
a <- xb-tmp; b <- xb+tmp 
} 
df<-n-1 
} 
data.frame (mean=xb, df=df , a=a, b=b) 

} 

在 程序 中 ，x 是 由 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 ， sigma 是 总 体 的 标 
准 差 ， 当 标准 差 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 正 态 分 布 估 计 区 间 端 点 ， 否 则 
(输入 项 缺 省 ), 程序 采用 t 分 布 估计 区 间 端 点 ， side 是 控制 求 置 信 区 间 上 下 
限 ， 若 求 置信 区 间 上 限 ， 输 入 side=-1; 若 求 置信 区 间 下 限 ， 输 入 side=1; 知 求 
双 侧 置信 区 间 , 输入 side=0 或 缺 省 . 输出 采用 数据 框 形式 , 输出 样本 均值 mean,， 
自由 度 df, 和 均值 的 区 间 估 计 的 两 个 端点 a,b. 

上 述 程序 实际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate4 包含 了 函数 interval_estimatel 的 功能 . 

例 4.22 从 一 批 灯泡 中 随机 地 取 5 只 作 寿 命 试验 ， 测 得 寿命 ( 以 小 时 计 ) 为 
1050, 1100, 1120, 1250, 1280. 
设 灯 泡 寿命 服从 正太 分 布 , 求 灯泡 寿命 平均 值 的 置信 度 为 0.95 的 单 侧 置信 下 限 . 

解 : 输入 数据 ， 调 用 函数 interval_estimate4() 

> X<-c(1050，1100，1120，1250，1280) 


> source("interval_estimate4.R") 








> interval_estimate4(X, side=1) 
mean df a b 
1 1160 4 1064.900 Inf 
也 就 是 说 有 95% 的 灯泡 寿命 在 1064.9 小 时 以 上 . 
R 软件 中 的 t.test() 函数 也 可 以 完成 单 侧 区 间 估 计 ， 如 
> t.test(X, alternative = "greater'") 


Une Sample t-test 
data: X 
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t = 26.0035, df = 4, p-value = 6.497e-06 
alternative hypothesis: true mean is greater than 0 
95 percent confidence interval: 

1064.900 Inf 
sample estimates: 
mean of x 


1160 
相应 的 区 间 佑 计 为 [1064.900, oo], 与 我 们 编写 函数 具有 相同 的 计算 结果 . 


在 程序 中 ， alternative 是 指 备 择 假 设 ， 这 个 概念 将 在 下 一 章 假设 检验 中 
作 详 细 介 绍 . 


2. 一 个 总 体 求 方差 


假设 与 前 面相 同 ， 5” 是 由 式 (4.23) 定义 ,分别 讨论 总 体 均值 y 已 知 、 未 知 
的 情况 ,方差 o? 的 单 侧 置信 区 间 估 计 . 
当 是 已 知 时 ， 由 式 (4.24), 有 


no? ne 
P 到 < | I P {an) < 2 =1—a, 


是 得 到 o? 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 














nd nd? 
和 
o? 的 置信 和 度 为 1 一 a 的 单 侧 置 信 下 、 上 限 为 
nd? 一 07 
Rm) ”Ry) 0 


当 4 是 未 知 时 ， 由 式 (4.27), 有 
了 sx =1—a, Ps < i) =1—a, 


02 02 








是 得 到 o? 的 置信 和 度 为 1 一 a 的 单 侧 置 信 区 间 
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o? 的 置信 和 度 为 1 一 a 的 单 侧 置 信 下 、 上 限 为 
2 (一 1)9? = (nC— 1)S? 


Am) ”Rm Co 


根据 公式 (4.51) 和 公式 (4.54), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 : interval_var3.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 
interval_var3<-function(x,mu=Inf ,side=0,alpha=0.05)1{ 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df<-n 
} 
elset 
S2<-var(x); df<-n-1 
} 
if (side<0){ 
a <-0 
b <- df*S2/qchisq(alpha,df) 
} 
else if (side>0){ 
a <- df*S2/qchisq(1-alpha, df) 
b <- Inf 
} 
elset 
a<-df*S2/qchisq(1-alpha/2, df) 
b<-df*S2/qchisq(alpha/2,df) 
} 
data.frame (var=S2, df=df, a=a, b=b) 

} 

在 程序 中 ，x 是 来 自 总 体 的 数据 (样本 ) 构成 的 向 量 。 mu 是 总 体 均值 ， 当 均 
值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采 用 自由 度 为 n 的 x 一 分布 计算 区 间 端 点 ， 当 
均值 未 知 时 ， 输 入 项 可 缺 省 ， 程 序 采用 自由 度 为 n 一 1 的 x 一 分 布 计算 区 间 端 
点 ， side 是 控制 求 置信 区 间 上 下 限 , 若 求 置信 区 间 上 限 , 输入 side=-1; 若 求 置 
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信 区 间 下 限 ， 输 入 side=1; 知 求 双 侧 置 信 区 间 ， 输 入 side=0 或 缺 省 ， 数 据 输 出 
采用 数据 框 的 形式 ， 输 出 值 是 样本 方差 var, 自由 度 df 和 方差 的 区 间 估 计 a，Pb. 
事实 上， 此 函数 已 包含 了 前 面 讲 过 的 方差 的 区 间 估 计 函 数 interval_var1 
的 功能 . 
例 4.23 求 例 4.21 中 10 个 数据 的 方差 置信 区 间 上 限 (a = 0.05). 
解 : 输入 数据 ， 调 用 也 数 interval_var3() 
> X<-c(10.1,10,9.8,10.5,9.7,10.1,9.9,10.2,10.3,9.9) 


> source("interval_var3.R'") 








> interval_var3(X, side=-1) 
var df a b 
1 0.05833333 9 0 0.1578894 
0” 的 置信 上 限 为 0.1579. 
关于 单 侧 置信 区 间 佑 计 本 质 上 与 双 侧 置信 区 间 估 计 是 相同 的 , 不 同 的 只 是 考 
虑 区 间 的 一 侧 ， 因 此， 前 面 介绍 双 侧 佑 计 的 方法 ， 基 本 上 可 以 平行 的 移 到 单 侧 区 
间 估 计 中 ， 有 关 的 R 软件 编程 ， 原则 上 也 是 相同 的 . 
3. 两 个 总 体 求 均值 差 
假设 有 两 个 正 态 总 体 X 和 ~ N(p1,01) 和 YY ~ N(12, 02), X1, Xa, Xn 
为 来 自 总 体 匀 的 一 个 样本 ， 关 , 】, …, 7 为 来 自 总 体 Y 的 一 个 样本 ， 1 一 a 
为 置信 和 度 ， 关 ,分别 为 第 一 、 第 二 样本 均值 ， .57, 53 分 别 为 第 一 、 第 二 样本 方 
差 . 
分 别 讨论 两 总 体 的 方差 o7, 03 已 知 、 未 知 和 是 否 相同 情况 下 , 均值 差 /一 /ia 
的 单 侧 置 信 区 间 佑 计 . 
当 cl c2 已 知 时 ， 由 式 (4.29) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推导 ， 得 到 
Hi 一 Ha 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 ; 


2 2 2 过 
到 tj (= 二 二 冤 求 序 2 下 (4.55) 
N1 702 Nl1 NL2 


当 oi = ca2 = 且 未 知 时 ， 由 式 (4.31) 和 类 似 于 双 侧 置信 区 间 的 估计 的 推 
导 ， 得 到 ji 一 /Ha 的 置信 和 度 为 1 一 a 的 单 侧 置信 区 间 : 

















= 1 1 
Yt m2)8, 一 十 一， ro) ; (4.56) 
nN TN2 
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和 
(-= 王 一 站 十 如 (十 Ta 一 2)9u 二 + 志 | . (4.57) 
Nl Ns 
当 of 和 弛 未 知 ， 且 of 关 03 时 ，j 一 Ha 的 置信 度 为 1 -- a 的 单 侧 置信 区 
间 : 
2 2 2 2 
Rp i + | (= pe 
N11 NL2 nNn1 no 
(4.58) 
其 中 7? 由 式 (4.36) 得 到 . 


根据 公式 (4.55)- 公式 (4.58), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 ”interval_estimate5.R )， 并 可 控制 求 上 、 下 置信 区 间或 双 侧 置信 


区 间 . 
interval_estimate5<-function(x, y, 
sigma=c(-1,-1), var.equal=FALSE, side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y); Zb<-xb-yb 
if (all(sigma>=0))+ 
if (side<0){ 
tmp<-qnorm(1-alpha)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- -Inf; b <- zb+tmp 
} 
else if (side>0)T{ 
tmp<-qnorm(1-alpha)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qnorm(1-alpha/2)*sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
} 
df<-n1i+n2 
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elset 
if (var.equal == TRUE)T 
Sw<-((n1i-1)*var (x)+(n2-1)*var (y))/ (ni+n2-2) 
if (side<0){ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- -Inf; b <- Zb+tmp 
中 
else if (side>0)T{ 
tmp<-sqrt (Sw*(1/n1i+1/n2))*qt (1-alpha,ni+n2-2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-sqrt (Sw* (1/n1i+1/n2))*qt (1-alpha/2,n1i+n2-2) 
a <- ZzZb-tmp; b <- Zb+tmp 
4 
df<-nil+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
if (side<0){ 
tmp<-qt(1-alpha, nu)*sqrt (Si1/n1i+S2/n2) 
a <- -Inf; b <- Zb+tmp 
} 
else if (side>0){ 
tmp<-qt(1-alpha, nu)*sqrt (Si1/n1i+S2/n2) 
a <- Zzb-tmp; b <- Inf 
} 
elset 
tmp<-qt(1-alpha/2, nu)*sqrt (Si1/n1+S2/n2) 
a <- ZzZb-tmp; b <- Zb+tmp 
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df<-nu 


data.frame (mean=zb, df=df, a=a, b=b) 


在 程序 中 ，x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 加 量 . sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 ,输入 相应 的 值 ， 程 序 采 用 正 态 分 布 
计算 区 间 的 端点 当 方差 未 知 时 ， 输 入 项 缺 省 ， 此 时 需要 考虑 两 总 体 是 否 相 同 ， 
若 认 为 两 总 体 方差 相同 ， 输 入 var .equal=TRUE, 程序 采用 自由 度 为 wz: 十 22 一 2 
的 t 一 分 布 计算 区 间 端 点 ; 者 认为 两 总 体 方差 不 同 ， 输 入 var .equal=FALSE 或 缺 
省 ,程序 采用 自由 度 为 v 的 t=- 分 布 计算 区 间 端 点 当 ~ 不 是 整数 时 ， 程 序 在 计 
算 三 分 布 时 ， 其 值 采用 插值 方法 得 到 . side 是 控制 求 置 信 区 间 上 下 限 ， 若 求 
置信 区 间 上 限 ， 输 入 side=-1; 知 求 置信 区 间 下 限 ， 输 入 side=1; 知 求 双 侧 置信 
区 间 ， 输 入 side=0 或 缺 省 ， 输出 采用 数据 框 形式 ， 输 出 样本 均值 差 mean, 自由 
度 df, 和 均值 差 的 区 间 估 计 的 两 个 端点 a,b. 

上 述 程 序 实 际 上 包含 了 求 双 侧 置信 区 间 的 情况 ， 也 就 是 说 ， 函 数 interval 
_estimate5 包含 了 函数 interval_estimate2 的 功能 . 


4. 求 两 个 总 体 方差 的 情况 

假设 与 前 面相 同 ，5? 和 3 是 由 式 (4.38) 定义 的 ， 分 别 讨论 两 总 体 均值 Ja 
与 jw 已 知 和 Hi 与 12 未 知情 况 下 ， 方 差 比 o?/03 的 单 侧 区 间 估 计 . 

当 jw 与 jw 已 知 时 ， 由 式 (4.39), 有 


入 2 2 As 2 
P 全 巡 Flmm) ) Ee P {Palmm) 二 ee 

















G03/02 一 ~ 023/03 
因此 ， of/o02 的 置信 水 平 1 一 a 的 单 侧 置 信 区 间 为 
2 ) 09/93 
| 有 es Pi_a(n1, n2) | ( 2 


当 pj 与 J2 未 知 时 ， 由 式 (4.42) 和 (4.43), 得 到 


S52 2 
和 3 < Palm bm)) ee 
02 








31/cl 
P {Ba a 1, no = 1) < 32703 一 1 一 QQ, 
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则 of/03 的 置信 水 平 1 一 a 的 单 侧 置信 区 间 为 
91/32 91132 


二 一 一 一 一 一 一 0， 一 一 | . 4.60 
Fua(mi 一 1mn2 一 1 +oo)， | ? Fi_a(ni—1,n2—2) ( ) 


根据 公式 (4.59) 和 公式 (4.60), 以 及 双 侧 置信 区 间 的 公式 写 出 下 面 的 R 程序 
(程序 名 ”interval_var4.R )， 并 可 控制 求 上 置信 区 间 、 双 侧 置 信 区 间 . 
interval_var4<-function(x,y, 
mu=c(Inf, Inf), side=0, alpha=0.05)+ 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)) { 
Sx2<-1/ni*sum( (x-mu[1])“2); df1i<-ni 
Sy2<-1/n2*sum((y-mu[2] )“2); df2<-n2 
} 
elset 
Sx2<-var (x); Sy2<-var(y); df1<-n1-1; df2<-n2-1 
} 
r<-Sx2/Sy2 
if (side<0) { 
a <-0 
b <- r/qf(alpha,df1 ,df2) 
} 
else if (side>0) { 
a <- r/qf(1-alpha,df1 ,df2) 
b <- Inf 
} 
elset 
a<-r/gf (1-alpha/2,df1 ,df2) 
b<-r/qf (alpha/2,df1,df2) 
} 
data.frame(rate=r, df1i=df1, df2=df2,a=a, b=b) 
} 


在 程序 中 ， x，y 分 别 是 来 自 两 总 体 的 数据 (样本 ) 构成 的 向 量 . mu 


Dou 
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由 两 总 体 均值 构成 的 向 量 ， 当 均值 已 知 时 ， 输 入 相应 的 值 ， 程 序 采用 自由 度 为 
(m,n2) 的 F- 分 布 计算 区 间 倍 计 的 两 个 端点 ;否则 (输入 缺 省 ), 程序 采用 自由 度 
为 (nm 一 1,n2 一 1) 的 FF- 分布 计 算 区 间 估 计 的 两 个 端点 . side 是 控制 求 置信 区 
间 上 下 限 , 硅 求 置信 区 间 上 限 , 输入 side=-1; 若 求 置信 区 间 下 限 ， 输 入 side=1; 
耕 求 双 侧 置信 区 间 , 输入 side=0 或 缺 省 ， alpha 是 显著 性 水 平 ， 缺 省 值 为 0.05. 
输出 采用 数据 框 形 式 ， 输 出 的 变量 有 : 样本 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2, 和 方差 比 的 区 间 佑 计 的 端点 a，Pb. 
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4.1 设 总 体 的 分 布 密度 为 
(Qw 十 1H)z2，0<7<1， 
f(x; aQ) = 
0， 其 他 ， 
XX1, X2…,Xn 为 其 样本 ， 求 参数 Qa 的 算 估 计量 Gil 和 极 大 似 然 估计 量 Go. 现 测 
得 样本 观测 值 为 
0.1 0.2 0.9 0.8 0.7 0.7 
求 参 数 a 的 估计 值 . 
4.2 设 元 件 无 故障 工作 时 间 怀 具有 指数 分 布 ， 取 1000 个 元 件 工作 时 间 的 记录 
数据 ， 经 分 组 后 得 到 它 的 频数 分 布 为 
组 中 值 六 5 15 25 35 /5 655 65 
频数 vi 965 245 150 100 7 有 25 
如 果 各 组 中 数据 都 取 为 组 中 值 ， 试 用 极 大 似 然 估计 求 入 的 点 估计 . 
4.3 为 检验 某 自 来 水 消毒 设备 的 效果 ， 现 从 消毒 后 的 水 中 随机 抽取 50 升 ， 化验 
每 升水 中 大 肠 杆 菌 的 个 数 (假设 一 升水 中 大 肠 杆 菌 个 数 服 从 Poisson 分 布 ) 其 化 
验 结 采 如 下 : 
大 肠 杆菌 数 / 升 | 0 1 2 3 4 5 6 
升 数 17 20 10 2 1 0 0 
试问 平均 每 升水 中 大 肠 杆 菌 个 数 为 多 少时 ， 才 能 使 上 述 情 况 的 概率 为 最 大 ? 
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4.4 利用 R 软 件 中 的 nlm() 函数 求解 无 约 来 优化 问题 


min f(x) = (-13+zZi+(5 一 za)za 一 2)7o) 
0 去 














取 初 始点 Z40 = (0.5, 一 2)7. 
4.5 正常 人 的 脉搏 平均 每 分 钟 72 次 ， 某 医生 测 得 10 例 四 乙 基 铝 中 毒 患 各 的 脉 
搏 数 (次 / 分) 如下， 

54 67 68 78 70 66 67 70 65 69 
已 知人 的 脉搏 次 数 服从 正 态 分 布 ， 试 计算 这 10 名 患者 平均 脉搏 次 数 的 点 估计 和 
95%% 的 区 间 舍 计 ， 并 作 单 侧 区 闻 估 计 ， 试 分 析 这 10 名 患者 的 平均 脉搏 次 数 是 否 
低 于 正常 人 的 平均 脉搏 次 数 . 
4.6 甲 、 乙 两 种 稻 种 分 别 播种 在 10 块 试验 田中 ， 每 块 试验 田 甲 、 乙 稻 种 各 种 一 
半 . 假设 两 稻 种 产量 ,了 均 服 从 正 态 分 布 ， 且 方差 相等 ， 收获 后 10 块 试验 田 
的 产量 如 下 所 示 (单位 ， 千克 ). 

甲 种 | 140 197 136 140 145 148 140 135 144 141 
忆 种 | 195 118 115 140 128 1931 130 115 191 125 

求 出 两 稻 种 产量 的 期 望 差 HI 一 12 的 置信 区 间 (Qa = 0.05) . 
4.7 甲 、 乙 两 组 生产 同 种 导线 ， 现 从 甲 组 生产 的 导线 中 随机 柏 取 4 根 ， 从 已 组 
生产 的 导线 中 随机 机 取 5 根 ， 它 们 的 电阻 值 (单位 ， 2) 分 别 为 

甲 组 0.143 0.142 0.143 0.137 

乙 组 0.140 0.142 0.136 0.138 0.140 
假设 两 组 电阻 值 分 别 服从 正 态 分 布 N(11,0”) 和 NN(j42,0”), 02 未 知 . 试 求 41 一 1 
的 置信 系数 为 0.95 的 区 间 估 计 . 
4.8 对 习题 4.6 中 甲乙 两 种 稻 种 的 数据 作 方差 比 的 区 间 人 估计， 并 用 其 估计 值 来 
判定 两 数据 是 否 等 方差 . 车 两 数据 方差 不 相等 试 重新 计算 两 稻 种 产量 的 期 望 差 
11 一 J2 的 置信 区 间 (a = 0.05) . 
4.9 设 电话 总 机 在 某 段 时 间 内 接 到 的 呼唤 的 次 数 服 从 参数 未 知 的 _Poissom 分 布 
P(A), 现 收集 了 42 个 数据 
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接 到 呼唤 次 数 | 0 1 2 3 7 5 6 
出 现 的 频数 7 10 12 8 3 2 0 
试 求 出 平均 呼唤 次 数 入 的 估计 值 和 它 的 置信 系数 为 0.95 的 置信 区 间 . 
4.10 已 知 某 种 灯泡 寿命 服从 正 态 分 布 , 在 某 星期 所 生产 的 该 灯泡 中 随机 柚 取 10 
只 ， 测 得 其 寿命 单位， 小 时 ) 为 
1067 919 1196 785 1126 936 918 1156 920 948 
求 灯泡 寿命 平均 值 的 置信 和 度 为 0.95 的 单 侧 置信 下 限 . 
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第 五 章 ”假设 检验 


假设 检验 (test of hypothesis) 是 统计 推断 中 的 一 个 重要 内 容 ， 它 是 利用 搜索 
到 的 数据 对 某 个 事先 作出 的 统计 假设 按照 某 种 设计 好 的 方法 进行 检验 ,判断 此 假 
设 是 否 正确 . 





5.1 假设 检验 的 基本 概念 


5.1.1 基本 概念 


在 数理 统计 分 析 中 ， 只 能 由 估计 量 估 计 总 体 的 参数 . 尽管 能 获得 总 体 参数 的 
无 偏 估计 ， 总 体 的 参数 始终 是 不 可 知 的 .只 能 通过 统计 检验 ， 由 统计 量 推断 总 体 
的 参数 . 在 统计 推断 过 程 中 ,需要 对 参数 提出 一 定 的 假设 ,然后 对 提出 的 假设 进 
行 假设 检验 ， 用 一 个 例子 说 明 假设 检验 的 基本 概念. 

例 5.1 设 某 工厂 生产 的 一 批 产品 ， 其 次 品 率 刀 是 未 知 的 . 按 规定 ， 若 p < 0.01， 
则 这 批 产品 为 可 接受 的 ; 否则 为 不 可 接受 的 , 这 里 久 < 0.01” 便 是 一 个 需要 的 
假设 ， 记 为 五 . 假定 从 这 批 数 据 很 大 的 产品 中 随机 地 抽取 100 件 样品 ， 发 现 其 中 
有 三 件 次 品 ， 这 一 抽样 结果 便 成 为 判断 假设 及 是 否 成 立 的 依据 ， 显 然 ， 样 品 中 

火 品 个 数 念 多 对 假设 且 念 不 利 ; 反之 则 对 甩 有 利 . 记 样 品 中 次 品 个 数 为 环 ， 问 
二 X 大 到 什么 程序 就 应 该 拒绝 万 ?9 

分 析 : 由 于 否定 了 互 就 等 于 否定 了 一 大 批 产 品 ， 这 个 问题 应 该 慎重 处 理 . 
统计 学 上 常用 的 作法 是 : 先 假定 及 成 立 ， 来 计算 X > 3 的 概率 有 多 大 ?由 于 
X 分 布 为 B(n,p), 其 中 == 100, 容易 计算 出 已 -ool{fX 二 3} 洁 0.08. 显然 ， 对 
2D < 0.01, 这 概率 值 还 要 小 ， 也 就 是 说 ， 当 假设 五 (p < 0.01) 成 立时 ， 100 个 样 
品 中 有 3 个 或 3 个 以 上 次 品 的 概率 不 超过 0.08. 这 可 以 看 作 是 一 个 “小 概率 ” 事 
件 . 而 在 一 次 试验 中 就 发 生 了 一 个 小 概率 事件 是 不 大 可 能 的 . 因此 ， 事 先 作出 的 
假设 “p < 0.01” 是 非常 可 疑 的 . 在 需要 作出 最 终 判决 时 ， 就 应 该 否定 这 个 假设 ， 
而 认定 这 批 产 品 不 可 接受 ( 即 认为 p > 0.01). 

上 述 例子 中 包含 了 假设 检验 的 一 些 重要 的 基本 概念 . 一 般 , 设 0 为 用 以 确定 
总 体 分 布 的 一 个 未 知 参数 ， 其 一 切 可 能 值 的 集合 记 为 6. 则 关于 0 的 任 一 假设 
可 用 “0 <s 69” 来 表示 ， 其 中 9' 为 6 的 一 个 真子 集 . 在 统计 假设 检验 中 ， 首 先 
要 有 一 个 作为 检验 的 对 象 的 假设 ， 常 称 不 原 假设 或 零 假 设 (null hypothesis). 与 
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之 相应 ,为 使 问题 表述 得 更 明确 ， 还 常 提出 一 个 与 之 对 应 的 假设 ,， 称 为 备 择 假设 
(alternative hypothesis). 原 假 设 和 备 择 假 设 常 表示 为 


万 0 : 0 € Oo, 万 1 : 0 € Qi, 


其 中 6o 和 61 为 9 的 两 个 不 相交 的 真子 集 ， Ho 表示 原 假设 ， Hi 表示 备 择 假 
设 
关于 一 维 实 参 数 的 假设 常 有 以 下 三 种 形式 (其 中 % 为 给 定 值 ): 
(1) 单 边 检验 
万 0 : 0 < Oo, Hi: 0 > 00. 


万 0 : 0 > Oo, Hi: 0 < Oo. 


万 0 : 0 = Oo, Hi: 0 A# Oo. 


通常 也 称 双边 检验 为 二 尾 检 验 ， 称 单 边 检 验 为 一 尾 检 验 . 

假设 检验 的 依据 是 样本 . 样本 的 某 些 取 值 可 能 对 原 假设 Ho 有利， 而 男 一 些 
取 值 可 能 对 Ho 不 利 ， 因 此 可 以 根据 某 种 公认 的 合理 准则 将 样本 空间 分 成 两 部 
分 . 一 部 分 你 为 拒绝 域 (critical region), 当 样 本 落 入 拒绝 域 时 ， 便 拒绝 Ho; 另 一 
部 分 可 称 为 接受 域 (acceptance region), 当 样 本 落 入 它 时 不 拒绝 五 0. 

构造 拒绝 域 的 常用 方法 是 寻找 一 个 统计 量 9( 如 例 5.1 中 的 样品 中 次 品 的 件 
数 X), 9 的 大 小 可 以 反映 对 原 假设 Ho 有 利 或 不 利 ， 因 此， 确定 拒绝 域 W 的 问 
题 转 化 为 确定 9 的 一 个 取 值 域 C 的 问题 . 
定义 5.1 对 假设 检验 问题 ， 设 六 1, X2……，Xn 为 样本 ， W 为 样本 空间 中 的 一 个 
子 集 ， 对 于 给 定 的 Qa € (0,1), 著 WW 满足 





Py {(X1, Xo2， 5 .， Xm) 所 W} <a, V0 EOo, (5.1) 


则 称 由 W 构成 拒绝 域 的 检验 方法 为 显著 性 水 平 (evidence level) a 的 检验 . 
显著 性 水 平 a 和 常用 的 取 值 为 0.1 0.05 和 0.01 等 . 对 一 个 显著 性 水 平 a 的 检 

验 ， 假 定 原 假设 Ho 成 立 ， 而 样本 落 入 拒绝 域 W 中 ， 就 意味 着 一 个 小 概率 发 生 

了 .而 在 一 次 试验 中 发 生 一 个 小 概率 事件 是 可 疑 的 ， 结 果 就 导致 了 对 原 假设 人 Ho 
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的 否定 . 在 例 5.1 中 ， 如 果 事 先 给 定 a = 0.1, 而 =0.01{X > 3} = 0.08, 因此 当 
p < 0.01 时 ， 这 个 概率 还 要 小 . 根据 定义 5.1, W = {X > 3} 便 给 出 了 假设 检验 
Ho :p< po = 0.01 的 显著 性 水 平 a = 0.1 的 拒绝 域 ,由 X= 3 便 可 拒绝 Ho. 但 
如 果 事 先 给 定 的 显著 性 水 平 a = 0.05, 这 时 ， 相 应 的 显著 性 水 平 a 的 检验 的 拒绝 
域 W = {X44, 这 时 X= 3 就 不 能 拒绝 Ho. 由 此 可 见 ， 显 著 性 水 平 a 愈 小 ， 
则 拒绝 原 假设 愈 困 难 . 换言之 , 显著 性 水 平 a 愈 小 , 则 当 样 本 落 入 拒绝 域 因而 拒 
绝 Ho 就 愈加 可 信 . 

通常 ,作假 设 者 对 原 假 设 Ho 往往 事先 有 一 定 的 信任 度 , 或 者 一 旦 否定 了 Ho 
就 意味 着 作出 一 个 重大 的 决 案 ， 需 谨慎 从 事 ， 因 此 把 检验 的 显著 性 水 平 a 取得 
比较 小 其 中 体现 了 一 种 “保护 原 假设 ”的 思想 . 


5.1.2 ”假设 检验 的 基本 思想 与 步 又 


假设 检验 的 基本 思想 : 

(1) 用 了 反 证 法 的 思想 . 为 了 检验 一 个 “假设 是否 成 立 ， 就 先 假定 这 个 “ 假 
设 ” 是 成 立 的 ， 而 看 由 此 会 产生 的 后 果 . 如 果 导 致 一 个 不 合理 的 现象 的 出 现 ， 那 
么 就 表明 原先 的 假定 不 正确 ， 也 就 是 说 ，“ 假 设 ” 不成立， 因此 ， 我 们 就 拒绝 这 
个 “假设 ". 如 果 由 此 没有 导出 不 合理 的 现象 发 生 ， 则 不 能 拒绝 原来 这 个 “假设 ”， 
称 原 假 设 是 相 容 的 . 

(2) 它 又 区 别 于 纯 数 学 中 的 反 证 法 . 因为 这 里 所 谓 的 “不 合理 ”, 并 不 是 形式 
逻辑 中 的 绝对 矛盾 ， 而 是 基于 人 们 实践 中 广泛 采用 的 一 个 原则 :小 概率 事件 在 一 
次 观察 中 可 以 认为 基本 上 不 会 发 生 . 

假设 检验 的 一 般 步 又 为 : 

(1) 对 符 检 验 的 未 知 参数 9 根据 问题 的 需要 作出 一 个 单 边 或 双边 的 假设 . 选 
择 原 假设 的 原则 是 : 事先 有 一 定 信 任 度 或 出 于 某 种 考虑 是 否 要 加 以 “保护 ”. 

(2) 选 定 一 个 显著 性 水 平 a, 最 常用 的 是 a = 0.05, 放松 一 点 可 取 a = 0.075 
或 0.1, 严格 一 些 可 取 a = 0.025 或 0.01. 

(3) 构造 一 个 统计 量 g, 9 的 大 小 反映 对 Ho 有 利 或 不 利 ， 拒绝 域 有 形式 W = 
{9 EC 

(4) 根据 定义 5.1 来 确定 W. 
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5.1.3 ”假设 检验 的 两 类 错误 


在 根据 假设 检验 作出 统计 决断 时 ， 可 能 犯 两 类 错误 . 第 一 类 错误 是 否定 了 真 
实 的 原 假设 ， 犯 一 型 错误 的 概率 定义 为 显著 性 水 平 a, 即 


a 二 P{ 否 定 Ho | Ho 是 真实 的 }， 


可 以 通过 控制 显著 性 水 平 a 来 控制 犯 第 一 类 错误 的 概率 . 
第 二 类 错误 是 接受 了 错误 的 原 假 设 . 犯 第 二 类 错误 的 概率 常用 6 表示 ， 即 


8 = P{ 接 受 H | Ho 是 错误 的 }. 








通常 来 讲 ， 在 给 定 样 本 容量 的 情况 下， 如果 减少 犯 第 一 类 错误 的 概率 ， 就 会 
增加 犯 第 二 类 错误 的 概率 . 而 减少 犯 第 二 类 错误 的 概率 ， 也 会 增加 犯 第 一 类 错 
误 的 概率 . 如 果 和 希望 同时 减少 犯 第 一 类 和 第 二 类 错误 的 概率 ， 就 需要 增加 样本 容 
量 ， 但 样本 容量 的 增加 ， 是 需要 增加 抽样 成 本 ， 这 有 时 是 不 可 行 的 ， 

在 统计 检验 中 , 评价 一 个 假设 检验 好 坏 的 标准 是 统计 检验 功效 ， 所谓 功效 就 
是 正确 地 否定 了 错误 的 原 假设 的 概率 ， 常 用 7 表示 ， 即 





7 二 1 一 B= P{ 和 否定 | 万 是 错误 的 


如 果 统 计 检 验 接受 了 原 假设 Ho : 9 = 00, 则 可 以 通过 计算 置信 区 间 ， 推 断 总 
体 参 数 9 的 取 值 范围 . 置信 区 间 是 根据 一 定 置信 程度 而 佑 计 的 区 间 ， 它 给 出 了 未 
知 的 总 体 参数 的 上 下 限 . 
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由 于 实际 问题 中 大 多 数 随 机 变量 服从 或 近似 服从 正 态 分 布 , 因此 ,这 里 重点 
介绍 正 态 参数 的 假设 检验 . 按 总 体 的 个 数 ， 又 可 分 为 单个 正 态 总 体 和 两 个 正 态 总 
体 的 参数 检验 . 


5.2.1 正 态 总 体 均值 的 假设 检验 


1. 单个 总 体 的 情况 
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设 总 体 X ~ N(j607), Xi, Xa,…，X 是 来 自 总 体 X 的 一 个 样本 ,均值 1 
的 检验 分 为 ， 双 边 检验 和 单 边 检验 ， 在 讨论 中 ， 又 分 为 总 体 方差 0? 已 知 和 总 体 
方差 0? 未 知 两 种 情况 . 

(1) 双边 检验 ， 即 


Ho: k= Ho, Hi: HA ho: 


当 方差 0 已 知 时 ,由 第 一 章 1.5.4 节 的 统计 知识 ( 式 (1.93)) 可 知 , 当 fo 为 
真 时 ， 





a Xho 是 
= 5 是 ~ NOD) (5.2) 
因此 用 2 来 确定 拒绝 域 ， 即 当 
[Z| > Zap2, 


则 认为 Ho 不 成 立 ， 其 中 a 为 显著 性 水 平 . 这 种 方法 称 为 正 态 检验 法 . 
当 方 差 ”未知 时 ， 由 统计 知识 (1.5.4 节 的 式 (1.95)) 可 知 ， 当 Ho 为 真 时 ， 
一 ho 


"= 


Re By (5.3) 
因此 当 
[TI| 2 ta2(n — 1), 
则 认为 Ho 不 成 立 ， 这 种 方法 称 为 1 一 检验 法 . 
在 实际 问题 中 ， 正 态 总 体 的 方差 通常 是 未 知 的 ， 所 以 常用 t 检验 法 来 检验 关 
于 正 态 总 体 均值 的 检验 问题 . 
(2) 单 检验 ， 即 


Ho: pp HF: p>po (或 Ho: p>p0, HF: p< po), 
当 方 差 o? 已 知 时 ， 其 拒绝 域 为 
pd | 研 放 六 二 区 站 
当 方差 c? 未 知 时 ， 其 拒绝 域 为 


T>ton-l1) (或 T < -ts(n -1)). 
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在 传统 的 方法 中 ,通常 采用 查 表 的 方法 来 确定 临界 值 ， 而 在 计算 机 软件 的 计 
算 中 ， 通 常 是 计算 P 一 值 ， 当 PP 一 值 小 于 指定 的 显著 性 水 平 a, 则 拒绝 原 假设 . 
所 请 P- 值 就 是 随机 变量 X 大 于 (或 小 于 ) 某 个 指定 值 的 概率 . 
对 于 单 边 检验 比较 简单 ， 以 正 态 分 布 为 例 ,， 在 给 定 > 值 后 ， 只 需 考 虑 XX 之 > 
的 概率 ， 即 
P- 值 = PEX > 要 = | blr)dr=1- 0) 
= 1— pnorm(z, 0， 1) ， (5.4) 


或 者 考虑 X < z 的 概率 ， 即 
PP 一 值 = P{X <z}= 三 gzZ)dz = pnorm(z, 0, 1). (5.5) 
对 于 双边 检验 ， 还 是 以 正 态 分 布 为 例 ， 在 给 定 z 值 后 ， 需 要 考虑 XX > |z| 和 
X < 一 |z| 的 概率 ， 或 者 考虑 X > |z| 概率 的 两 倍 . 因此 ， PP 一 值 的 计算 公式 为 


ea 2P{X<z})， 如 果 P{X <z} < P{X> 2} 
es a > 2}， 否则 


2 otrar, 条 f os)ar< 人 ol 
2 | stodz， 在 则 
四 | 2B(z), 如 果 B(z) < (1 一 B(z)) 
2(1 一 8(2)) 否则 
| 2 pnorm(z), 如 果 pnorm(z) < 
2(1 一 pnorm(z)) 否则 


1 
2 (5.6) 
将 式 (5.4)-(5.6) 编写 成 求 P- 值 的 R 程序 (程序 名 : P_value.R) 
P_value<-function(cdf, x, paramet=numeric(0), side=0){ 
n<-length (paramet) 
p<-switch(n+1, 
cdf (x), 
cdf (x, paramet), 
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cdf (x, paramet [1], paramet [2] ) ， 
cdf (x, paramet [1], paramet [2] , paramet [3]) 


) 
if (side<0) P 
else if (side>0) 1-P 
else 
if (P<1/2) 2*P 
else 2* (1-P) 


} 


其 中 输入 值 cdf 是 分 布 函数 ， 如 正 态 分 布 就 是 pnorm. x 是 计算 P- 值 的 给 定 
值 ，paramet 是 对 应 分 布 的 参数 , 如 正 态 分 布 的 参数 为 paramet=c (mu，sigma). 
side 是 计算 单 侧 P- 值 或 双 侧 P- 值 的 指标 参数 ， 输 入 side=-1, 计算 左 侧 的 P- 
值 ; 输入 side=1, 计算 右 侧 的 P- 值 ; 输入 side=0 或 缺 省 ， 计 算 双 侧 P- 值 . 函 
数 的 输出 值 是 相应 的 P- 值 . 

在 得 到 P 一 值 后 ， 其 检验 标准 改 为 : 当 P- 值 小 于 指定 的 显著 性 水 平 a 时 ， 
则 拒绝 原 假设 ， 否 则 不 拒绝 原 假设 . 

将 上 面 进 述 介 绍 的 正 态 检验 方法 ( 式 (5.2)) 和 + 检验 方法 ( 式 5.3) 与 求 
P- 值 的 R 程序 相 结 合 ， 编 写 求 一 个 正 态 总 体 均 值 检验 的 R 程序 (程序 名 : 


mean.test1.R) 


mean.test1i<-function(x, mu=0, sigma=-1, side=0){ 
source("P_value.R") 
n<-length(x); xb<-mean(x) 
if (sigma>0){ 
Zz<-(xb-mu)/(sigma/sqrt (n)) 
P<-P_value (pnorm, Zz, side=side) 
data.frame (mean=xb, df=n, Z=z, P_value=P) 
} 
elset{ 
t<-(xb-mu)/(sd(x)/sqrt (n)) 
P<-P_value(pt, t, paramet=n-1, side=side) 


data.frame (mean=xb, df=n-1, T=t, P_value=P) 
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在 上 述 程序 中 , 输入 值 x 是 数据 (样本 ) 构成 的 向 量 ， mu 是 原 假设 10. sigma 
是 标准 差 o, 当 o 已 知 时 , 输入 相应 的 值 ， 程序 采用 正 态 检验 法 ， 当 o 未 知 时 ( 缺 
省 ), 程序 采用 t 一 检验 法 . ”side 是 指 双 边 检 验 还 是 单 边 检 验 . 输入 side = 0 
(或 缺 省 ), 程序 作 双 边 检 验 ， 其 备 择 假设 为 ， /入 Ho; 输入 side = -1 (或 <0 的 
值 ), 程序 作 单 边 检 验 ， 其 备 择 假设 为 ， /< yo; 输入 side = 1 (或 > 0 的 值 ), 程 
序 作 单 边 检 验 ， 其 备 择 假设 为 : 内 > jo. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 均值 (mean), 自由 度 (df), 统计 量 
(T 值 或 z 值 ), 和 P- 值 . 
例 5.2 某 种 元 件 的 寿命 尖 (以 小 时 计 ) 服从 正 态 分 布 N(1,0”), 其 中 J,0? 均 未 
知 ， 现 测 得 16 只 元 件 的 寿命 如 下 : 
159 280 101 212 224 379 179 264 
222 362 168 250 149 260 485 170 
问 是 否 有 理由 认为 元 件 的 平均 寿命 大 于 225 (小 时 )? 
解 : 按 题 意 (注意 前 面 提 到 的 假设 检验 运用 了 反 证 法 的 思想 ), 需 检验 


万 0 : HK < ko = 225, Hi: HK > /0 = 225. 


此 问题 是 单 边 检验 问题 . 
输入 数据 ， 调 用 函数 mean .test1(), 得 到 
> X<-c(159，280，101，212，224，379，179，264， 
222，362，168，250，149，260，485，170) 
> Source('mean.test1.R"D) 
> mean.test1(X, mu=225, side=1) 
mean df T Pvalue 
1 241.5 15 0.6685177 0.2569801 
计算 出 一 值 是 0.2569801(> 0.05), 不 能 拒绝 原 假设 ,接受 Ho, 即 认为 平均 寿命 
不 大 于 225 小 时 . 
实际 上 , 参数 的 区 间 估 计 也 作假 设 检验 ， 换 句 话 说 ， 区 间 估 计 与 假设 检验 本 
质 上 是 相同 的 ， 对 例 5.2 中 的 数据 作 单 侧 区 间 估 计 (估计 下 限 )， 
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> Source('"interval_estimate4.R1") 
> interval_estimate4(X, side=1) 
mean df a b 


1 241.5 15 198.2321 Inf 
置信 下 限 为 198.23 < 225, 因此 只 能 接受 原 假设 , 认为 平均 寿命 不 大 于 225 小 时 . 


在 R 软件 中 ， 函 数 t.test() 提供 了 工 检验 和 相应 的 区 间 估 计 的 功能 ， 
t.test() 的 使 用 格式 如 下 : 
t.test(x, y = NULL, 





alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x,y 是 由 数据 构成 向 量 (如 果 只 提供 x, 则 作 单 个 正 态 总 体 的 均值 检验 ， 否 
则 作 两 个 总 体 的 均值 检验 ), alternative 表示 备 择 假设 ，two.sided( 缺 省 ) 表示 
双边 检验 ( 肋 : 1 六 10), 1ess 表示 单 边 检 验 (于 : 1 < 0), greater 表示 单 边 检 
验 (Ti :4 > 10). mu 表示 原 假设 Lo. conf .level 是 置信 水 平 ， 即 1 一 a, 通常 是 
0.95. 


再 用 t.test() 函数 计算 例 5.2. 


> t.test(X, alternative = "greater", mu = 225) 
One Sample t-test 

data: X 
t = 0.6685, df = 15, p-value = 0.257 
alternative hypothesis: true mean is greater than 225 
95 percent confidence interval: 

198 .2321 ID 
sample estimates: 
mean of x 


241.5 


可 以 看 到 ， 所 计算 的 了 值 、P- 值 、 和 均值 ， 以 及 区 间 佑 计 值 与 我 们 所 编 
程序 的 计算 值 完全 相同 ， 因 此 ， 可 以 利用 遂 数 t.test() 对 单个 总 体 正 态 数据 作 
均值 检验 和 区 间 佑 计 . 由 这 个 例子 和 自 编 的 程序 的 计算 结果 ， 可 以 使 我 们 加 深 对 
R 软件 中 的 .test() 函数 的 认识 .当然 ，t.test() 函数 还 有 更 强大 的 功能 ， 
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这 些 功能 我 们 将 在 后 面子 以 介绍 . 

2. 两 个 总 体 的 情况 

假设 从 1) 及 2， 与 过 请 是 来 自 总 体 X~ VIA oF) 的 样本 ， 六 ， Y2， A 六 
来 自 总 体 ~ N (12,02) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 有 
双边 检验 : Ho: m=k, Hi: MWA, 
单 边 检 验 工 Ho: Hp, Hi: kh1> pk, 
单 边 检 验 I: Ho: ji>p2, Hi: Wi < Ha. 


是 





分 几 种 情况 讨论 . 
(1) 方差 of 和 o 已 知 . 由 统计 知识 (1.5.4 节 的 式 (1.97)) 可 知 ， 当 Ho 为 真 
时 ， 汪汪 
Z= 2 ~ N(0,1). (5.7) 
全 + 县 


因此 ， 当 2 满足 ( 称 为 拒绝 域 ) 
双边 检验 : [Z| > Zuo， 
单 边 检验 工 Z > Zo, 
单 边 检验 I 和 < -Zo 
则 认为 Ho 不 成 立 ， 此 方法 仍 称 为 正 态 检验 法 . 
(2) 方差 of = 02 = 0 未知. S51 和 32 分 别 是 X 和 了 的 样本 方差 . 由 统 
计 知 识 (1.5.4 节 的 式 (1.98)) 可 知 ， 当 Ho 为 真 时 ， 
ti 十 Ta 一 2)， 
十 


= 一 
1 1 
Oia ts 


和 (ni 一 1)9z 十 (na 一 DS2 (5.9) 
ni 十 n2 一 2 

因此 ， 当 了 满足 ( 称 为 拒绝 域 ) 

双边 检验 : [7| > top (ni + nn2 — 2), 

单 边 检验 LL: 下 之 如 (na 十 ma 一 2)， 

单 边 检验 I 了 么 一 如 ni 十 na 一 2). 


其 中 
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则 认为 Ho 不成立， 此 方法 仍 称 为 t- 检验 法 . 
(3) 方差 of 关 o2 未 知 ， S1 和 32 分 别 是 X 和 Y 的 样本 方差 . 可 以 证 明 


及 一 六 
T= ~ 1(7 5.10 
3 (7) (5.10) 
Nn1 n2 


近似 成 立 ， 其 中 
oe 0 (5 
A Oy 

因此 ， 当 了 满足 ( 称 为 拒绝 域 ) 


双边 检验 : ul 
单 边 检验 I 人 > 如 人 
单 边 检验 II 了 < 一刀 从. 


则 认为 Ho 不 成 立 . 
根据 公式 (5.7) 、 公 式 (5.8) 和 公式 (5.10) 写 出 三 种 情况 下 两 总 体 均值 检验 
的 及 程序 (程序 名 : mean.test2.R ). 
mean.test2<-function(x, y, 
sigma=c(-1, -1), var.equal=FALSE, side=0)1{ 
source("P_value.R'") 
ni<-length(x); n2<-length(y) 
xb<-mean(x); yb<-mean(y) 
if (all(sigma>0)){ 
z<-(xb-yb)/sqrt(sigma[1] “2/nitsigma[2] “2/n2) 
P<-P_value(pnorm, Zz, side=side) 
data.frame (mean=xb-yb, df=n1it+n2, Z=z, P_value=P) 
} 
elset 
if (var.equal == TRUE)T 
Sw<-sqrt(((n1i-1)*var (x)+(n2-1)*var(y))/ (ni+n2-2)) 
t<-(xb-yb)/ (Sw*sqrt (1/n1i+1/n2)) 
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nu<-ni+n2-2 
} 
elset 
Si<-var(x); S2<-var(y) 
nu<-(S1/n1+S2/n2) “2/(S1°2/n1°2/(n1-1)+S2°2/n2°2/ (n2-1)) 
t<-(xb-yb)/sqrt (S1/n1+S2/n2) 
} 
P<-P_value(pt, t, paramet=nu, side=side) 


data.frame (mean=xb-yb, df=nu, T=t, P_value=P) 


在 上 述 程序 中 ,输入 值 x,y 是 来 自 两 个 总 体 数 据 构 成 的 向 量 . sigma 是 由 
两 总 体 标准 差 构 成 的 向 量 ， 当 标准 差 已 知 时 , 输入 相应 的 值 ， 程 序 采用 正 态 检验 
法 ， 当 标准 差 未 知 时 ( 缺 省 ), 程序 采用 三 检验 法 . var.equal 是 逻辑 变量 ， 
输入 var .equal=TRUE, 表示 认为 两 总 体 的 方差 相同 ; 输入 var .equal=FALSE (或 
缺 省 )， 表 示 认 为 两 总 体 的 方差 不 同 .side 是 指 双 边 检 验 还 是 单 边 检验 . 输入 
side = 0 (或 缺 省 ), 程序 作 双 边 检 验 ， 其 备 择 假设 为 ，11 关 12; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假设 为 。 1 < yw; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检验 ， 其 备 择 假 设 为 :1 > 12. 


程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 ， 均值 的 差 (mean), 自由 度 (df), 统 
计量 (T 值 或 z 值 ), 和 P- 值 . 
例 5.3 在 平 护 上 进行 一 项 试验 以 确定 改变 操作 方法 的 建议 是 否 会 增加 钢 的 得 率 ， 
试验 是 在 同一 个 平 炉 上 进行 的 . 每 炼 一 炉 钢 时 除 操 作 方 法 外 ， 其 他 条 件 都 尽 可 能 
做 到 相同 ， 先 用 标准 方法 炼 一 炉 ， 然 后 用 新 方法 炼 一 炉 ， 以 后 交替 进行 ， 各 炼 了 
10 炉 ， 其 得 率 分 别 为 








标准 方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 
新 方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1 


设 这 两 样本 相互 独立 ， 且 分 别 来 自 正太 总 体 NU a2) 和 N(12,07), 其 中 ,42 
和 oa2 未 知 ， 问 新 的 操作 能 否 提高 得 率 ? ( 取 a 二 0.05 ) 
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解 : 根据 题 意 ， 需 要 假设 
Ho: mp2, Hi: Hi < Wy, 
这 里 假定 of = co2 = 0 因此 选择 t- 检验 法 ,方差 相同 的 情况 (程序 名 : 
exam_0503 .R). 
X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
source("mean.test2.R") 
mean.test2(X, Y, var.equal=TRUE, side=-1) 
得 到 
mean df T P_value 
1 -3.2 18 -4.295743 0.0002175927 
计算 出 P- 值 是 0.0002176 和 0.05, 故 拒绝 原 假设 ， 即 认为 新 的 操作 方 能 够 提高 
得 率 
如 果 认 为 两 总 体 方差 不 同 ， 则 
> hypothesis.test2(X, Y, side=-1) 





mean df T P_value 
1 -3.2 17.31943 -4.295743 0.0002354815 
仍然 是 拒绝 原 假设 . 


实际 上 , 利用 区 间 估 计 也 可 以 作假 设 检验 ,例如 ,利用 两 个 总 体 均值 差 的 区 
间 估 计 作 假设 检验 ， 
#### 调用 两 个 总 体 均 值 差 的 区 间 估 计 函 数 
> source("interval_estimate5.R") 
#### 作 单 侧 区 间 估计 ， 并 认为 两 总 体 方差 相同 


> interval_estimate5(X, Y, var.equal=TRUE, side=-1) 





mean df a b 


1 -3.2 18 -Inf -1.908255 
#### 作 单 侧 区 间 估 计 ， 并 认为 两 总 体 方差 不 同 


> interval_estimate5(X,Y, side=-1) 





mean df a b 


1 -3.2 17.31943 -Inf -1.905500 
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无 论 是 认为 两 样本 方差 相同 , 还 是 认为 两 样本 方差 不 同 ， 其 均值 差 的 上 限 估 
计 均 < 0, 也 就 是 说 1 一 jw2 < 0, 即 jw < pz. 


在 R 软件 中 ， 函 数 t.test() 也 可 以 作 双 样本 检验 ， 其 使 用 格式 为 


t.test(x, y = NULL， 


alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, var.equal = FALSE, 
conf.level = 0.95, ...) 


其 中 x，y 是 来 自 两 总 体 数据 构成 的 向 量 ，alternative 是 备 择 假设 ,，two .sided 
( 缺 省 ) 表示 双边 检验 (Hi : 11 关 12), less 表示 单 边 检验 (Hi : Hi < /2), greater 
表示 单 边 检验 (万 : Ji > 12). var.equal 是 逻辑 变量 ， var.equal=TRUE 表示 
认为 两 样本 方差 相同 ; var .equal=FALSE( 缺 省 ) 表示 认为 两 样本 方差 不 同 . 
用 t.test() 函数 对 上 例 进 行 计算 . 
> t.test(X, Y, var.equal=TRUE, alternative = "less'") 
Two Sample t-test 

data: X and Y 
t = -4.2957, df = 18, p-value = 0.0002176 
alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 

-Inf -1.908255 
sample estimates: 
mean of x mean of y 


76 .23 79 .43 


从 计算 结果 可 以 看 到 ，t.test() 不 但 可 以 作 两 个 总 体 的 均值 检验 ， 还 可 以 
作 两 个 总 体 均 值 差 的 区 间 佑 计 ， 其 计算 结果 与 我 们 编程 的 计算 结果 相同 . 这 一 点 
可 以 很 好 地 帮助 我 们 理解 t.test() 函数 的 功能 与 计算 过 程 . 

结合 单个 总 体 的 均值 检验 ， 发 现 t.test() 函数 ， 可 以 作 单 、 双 总 体 的 均值 
检验 ， 还 提供 了 均值 的 区 间 佑 计 ， 完成 均值 检验 与 估计 的 全 部 工作 . 

事实 上 , 均值 的 区 间 估 计 与 均值 的 假设 检验 本 质 上 是 对 一 个 问题 从 两 个 不 同 
角度 的 讨论 ， 有 着 内 在 的 联系 ， 这 也 就 是 为 什么 t.test() 将 区 间 估 计 与 假设 检 
验 放 在 一 起 的 原因 ， 可 以 使 我 们 从 多 角度 对 问题 进行 判断 ， 提 高 判断 的 准确 性 . 
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3. 成 对 数据 的 t 一 检验 

如 果 数 据 是 成 对 出 现 的 , 即 (Xi, %)，(i 二 1,2,…,n), 则 认为 用 成 对 t=- 检验 
要 优 于 双 样 本 均值 检验 . 所 谓 成 对 三 检验 就 是 令 2; = 和 一 中 (i 二 1,2,……,n)， 
对 2 作 单 样本 均值 检验 . 例如， 对 于 例 5.3 中 的 数据 就 应 作成 对 三 检验 . 
> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 
> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 
> t.test(X-Y, alternative = "less") 

Une Sample t-test 
data: X-Y 
t = -4.2018, df = 9, p-value = 0.001150 
alternative hypothesis: true mean is less than 0 
95 percent confidence interval: 
-Inf -1.803943 

sample estimates: 
mean of x 


-3.2 
同样 说 明 ， 新 方法 优 于 标准 方法 ， 但 它 计算 的 一 值 更 小 ， 说 明 判 断 更 可 靠 . 


5.2.2 正 态 总 体 方差 的 假设 检验 
1. 单个 总 体 的 情况 
设 入 ,Xo,… ,Xn 是 来 自 总 体 X ~ N(1,0”) 的 样本 ， 其 检验 问题 为 


双边 检验 : Ho: o2=0%, Hi: o2#07, 
单 边 检验 Ho: o*<os, Hi: o>o, 
单 边 检验 I: 而 : o>0, 外: 0 <of. 
分 均值 已 知 和 均值 未 知 两 种 情形 讨论 . 
» 1 
当 均 值 1 是 已 知 时 ， 当 Fo 为 真 时 , 令 个 = 二 》(Xi 一 四 ”， 则 有 








X= ~ Xn), (5.12) 
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因此 用 x 来 确定 拒绝 域 ， 即 当 
双边 检验 : x al 关 关 - 坟 天 出， 
单 边 检 验 x > 这 (n)， 
单 边 检 验 I x < xI_a(n). 
则 认为 Ho 不 成 立 . 
当 均 值 1 是 未 知 时 ， 当 五 0 为 真 时 ， 有 


nom1)s? 
Y= ~ vn) (5.13) 
0 


因此 用 x 来 确定 拒绝 域 ， 即 当 





双边 检验 : X22(n 一 1) 或 x< Xi_a2(n 二 
单 边 检验 x? > x 多 (n 一 1)， 
单 边 检验 I 这 <x?_ sn 一 1) 

则 认为 Ho 不 成 立 . 

与 均值 检验 相同 ,在 计算 中 仍 用 PP 一 值 的 大 小 来 判断 是 否 拒 绝 Ho. 当 P- 值 
小 于 a, 则 拒绝 Ho; 否则 不 拒绝 Ho. 关于 P 一 值 的 计算 方法 与 均值 检验 的 方法 
相同 . 

根据 公式 (5.12) 和 公式 (5.13) 写 出 总 体 均值 已 知 和 均值 未 知 两 种 情况 方差 
检验 的 R 程序 (程序 名 :var .test1.R), 在 程序 中 调用 P- 值 计算 程序 . 

var.test1i<-function(x, sigma2=1, mu=Inf, side=0)1{ 

source("P_value.R") 
n<-length (x) 
if (mu<Inf){ 
S2<-sum( (x-mu) “2)/n; df=n 
} 
elset{ 
S2<-var(x); df=n-1 
} 
chi2<-df*S2/sigma2; 
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P<-P_value(pchisq, chi2, paramet=df, side=side) 
data.frame(var=S2, df=df, chisq2=chi2, P_value=P) 
有 
在 上 述 程 序 中 , 输入 值 x 是 数据 构成 的 向 量 . sigma2 是 原 假设 00. mu 是 均 
值 ， 当 已 知 时 , 输入 相应 的 值 ， 程 序 采用 自由 度 为 的 x? 检验， 否则 ( 缺 省 )， 
程序 采用 自由 度 为 n 一 1 的 检验 .side 是 指 双边 检验 还 是 单 边 检验 ， 输 入 
side = 0 (或 缺 省 ), 程序 作 双 边 检 验 ， 其 备 择 假设 为 ，o” 关 00; 输入 side = -1 
(或 < 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假设 为 ， 0? < oo; 输入 side = 1 (或 
> 0 的 值 ), 程序 作 单 边 检 验 ， 其 备 择 假设 为 0” > ol. 
程序 以 数据 框 形式 输出 ， 输 出 的 内 容 有 : 方差 (var), 自由 度 (df), 统计 量 
(chisq2), 和 P- 值 . 
例 5.4 从 小 学 五 年 级 男 学 生 中 抽取 20 名 , 测量 其 身高 (单位 厘米 )， 其 数据 如 
下: 
136 144 143 157 137 159 135 158 147 165 
158 142 159 150 156 152 140 149 148 155 


以 a 二 0.05 作假 设 检验 : 


(1) Ho: 4=149, Hi: nA 149; 
(2) Ho: o2=75, Hi: o2#75. 





解 : 输入 数据 , 用 上 面 编 写 的 程序 , 就 方差 已 知 和 方差 未 知情 况 作 均值 检验 ， 
就 均值 已 知 和 均值 未 知 的 情况 作 方差 检验 . 

#### 用 scan() 函数 读数 据 

> X<-scan() 

1: 136 144 143 157 137 159 135 158 147 165 

11: 158 142 159 150 156 152 140 149 148 155 

21: 

Read 20 items 

#### 调用 均值 检验 函数 mean.test1 


> source('"mean.test1.R'") 
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#### 认为 方差 已 知 ， 作 均值 检验 
> mean.test1(X, mu=149, sigma=sqrt(75)) 
mean df Zz Pvalue 


1 149.5 20 0.2581989 0.7962534 
#### 认为 方差 未 知 ， 作 均值 检验 
> mean.test1(X, mu=149) 
mean df T Pvalue 
1 149.5 19 0.2536130 0.8025186 
#### 调用 均值 检验 函数 var .test1 
> source('"var.test1.R") 
#### 认为 均值 已 知 ， 作 方差 检验 
> var.test1i(X, sigma2=75, mu=149) 


Var df chisq2  P_value 


1 74.1 20 19.76 0.9460601 
#### 认为 均值 未 知 ， 作 方差 检验 


> var.test1(X, sigma2=75) 
var df chisdq2  P_value 


1 77.73684 19 19.69333 0.8264785 
无 论 是 哪 种 方法 ， 其 P 一 值 均 大 于 0.79, 因此 接受 原 假设 . 
2. 两 个 总 体 的 情况 


设 Xi1, 从 2， 所 A 是 来 自 总 体 X~ N(n1,07) 的 样本 ， 1 ， Y2， 人 ln 是 来 
自 总 体 Y ~ N(j2,03) 的 样本 ， 且 两 样本 独立 ， 其 检验 问题 为 


、 2 2 2 2 
双边 检验 : 万 0 : O1 二 0O2， 万 1 : O1 天 a2， 
单 边 检验 工 Ho: o< oo Hi: of>o02, 
单 边 检验 IT Ho: of>03, Hi: of<oz. 


分 均值 Wi, 12 已 知 和 未 知 两 种 情况 讨论 . 


Nl1 Nn2 


本 1 CE 1 
当 ji 与 po 已 知 时 , 令 人 = 2 — J/1), 人 = 0 一 Ha)2, 当 


i=1 i=1 
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夯 为 真 时 
下 = 已 ~ Fnayna)， (5.14) 
02 
因此 用 FF 来 确定 拒绝 域 ， 即 当 
双边 检验 : F> FN,n2) 或 F< Fni,n2), 


单 边 检 验 工 FPF > Fl(ni,n2), 
单 边 检验 I: F< 让 jo(ni,n2). 


则 认为 Ho 不 成 立 . 
当 jn 与 J2 未 知 时 ， 当 Ho 为 真 ， 有 
3 
2 


因此 用 来 确定 拒绝 域 ， 即 当 


双边 检验 : 已 二 Faa( 一 1 一 1 或 下 生 下 -wa(na 一 17ma 一)， 
单 边 检验 工 FPF>F(n 一 1ma2 一 1])， 
单 边 检验 II < Fo(ni—1,n2—1). 


则 认为 Ho 不 成 立 . 
根据 公式 (5.14) 和 公式 (5.15) 写 出 均值 已 知 和 均值 未 知 两 种 情况 方差 比 检 
验 的 及 程序 (程序 名 : var.test2.R ). 
var.test2<-function(x, y, mu=c(Inf, Inf), side=0){ 
source("P_value.R") 
ni<-length(x); n2<-length(y) 
if (all(mu<Inf)){ 
Sx2<-sum( (x-mu[1]) “2)/ni; Sy2<-sum((y-mu[2]) “2)/n2 
df1=n1; df2=n2 
} 
elset 
Sx2<-var (x); Sy2<-var(y); df1=n1-1; df2=n2-1 
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r<-Sx2/Sy2 

P<-P_value(pf, r, paramet=c(df1, df2), side=side) 

data.frame(rate=r, df1i=df1, df2=df2, F=r, P_value=P) 
} 


在 程序 中 ，x，y 是 来 自 两 总 体 的 数据 向 量 . mu 是 均值 ， 当 均值 已 知 时 , 采 
用 上 自由 度 为 (ima) 的 下 分 布 计 算 下 值 ; 否则， 采用 上 自由 度 为 (ni 一 1,n2 一 1) 
的 到- 分 布 计算 FF 值 . side 是 指 双边 检验 还 是 单 边 检验 . 当 side = 0 作 双 
边 检 验 ， 其 备 择 假设 为 。 of 关 02; 当 side < 0 作 单 边 检 验 ， 其 备 择 假设 为 : 
of < 02; 当 side > 0 作 单 边 检验 ， 其 备 择 假设 为 ， cl > o2. 

输出 采用 数据 框 形 式 ， 输 出 的 变量 有 : 方差 比 rate, 第 一 自由 度 df1, 第 二 
自由 度 df2,F 值 和 P- 值 . 
例 5.5 试 对 例 5.3 中 的 数据 假设 检验 


2 这 2 2 
Ho . O1 二 0O2， Hi 。 O1 天 05. 


解 : 输出 数据 ， 调 用 var.test2() 函数 

> X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3) 

> Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1) 

> source('"var.test2.R") 

> var.test2(X,Y) 

rate df1 df2 F  P_value 

1 1.494481 9 9 1.494481 0.5590224 
PP 一 值 为 0.559 > 0.05, 因此 ， 无 法 拒绝 原 假设 ， 认 为 两 总 体 的 方差 是 相同 的 . 
这 也 说 明 在 例 5.3 中 ,假设 两 总 体 方差 相同 是 合理 的 . 

用 两 总 体 方差 比 的 区 间 估 计 也 能 作 样 本 的 方差 检验 . 

#### 调用 方差 的 区 间 估 计 函 数 interval_var4 


> source('"interval_var4.R'") 


#### 作 方 差 比 的 区 间 佑 计 ， 考 虑 均值 未 知 的 情况 
> interval_var4(X, Y) 

rate df1i df2 a b 
1 1.494481 9 9 0.3712079 6.016771 
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由 于 方差 比 1 在 所 佑 计 的 区 间 内 ， 因 此 认为 方差 是 相同 的 ， 


在 R 软件 中 ， var.test() 函数 提供 作 方 差 比 的 检验 和 相应 的 区 间 佑 计 . 
该 函数 的 使 用 格式 是 


var.test(x, y, ratio = 1, 





alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95, ...) 
其 中 x,y 是 来 自 两 样本 数据 构成 的 向 量 ， ratio 是 方差 比 的 原 假 设 ， 缺 省 值 为 
1. alternative 是 备 择 假 设 ， two.sided 表示 双边 检验 (Hi : o?/02 冯 ratio)， 
less 表示 单 边 检验 (Hi : of/03 < ratio), greater 表示 单 边 检验 (Hi :of/02 > 
ratio). 
下 面 用 var .test() 函数 计算 例 5.5. 
> var.test (X,Y) 
F test to compare two variances 
data: X and Y 
F = 1.4945, num df = 9, denom df = 9, p-value = 0.559 
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval: 
0.3712079 6.0167710 
sample estimates: 
ratio of variances 
1.494481 
与 我 们 前 面 的 计算 结果 是 完全 相同 的 . 后 面 还 将 介绍 直接 用 var.test() 作 双 总 
体 方差 比 的 检验 或 方差 比 的 区 间 估 计 . 这 个 例子 也 使 我 们 可 以 更 清楚 的 了 解 函数 
var.test() 的 计算 过 程 . 


5.2.3 ”二 项 分 布 总 体 的 假设 检验 


前 面 介绍 的 是 正 态 总 体 的 假设 检验 问题 , 这 里 介绍 非 正 态 总 体 的 检验 问题 . 
关于 非 正 态 总 体 的 检验 有 很 多 ， 这 里 只 介绍 二 项 分 布 的 假设 检验 问题 . 

类 似 于 正 态 分 布 ， 我 们 也 可 以 推导 出 二 项 分 布 的 统计 量 和 所 服从 的 分 布 ， 导 
出 相应 的 佑 计 值 (点 估计 和 区 间 佑 计 ), 以 及 相应 的 假设 检验 方法 .这 里 我 们 仅 给 
出 R 软件 中 关于 二 项 分 布 检验 和 个 计 的 函数 binom.test(). 
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binom.test() 函数 的 使 用 方法 是 : 
binom.test(x, n, p = 0.5, 
alternative = c('"two.sided", "less", "greater'"), 
conf.level = 0.95) 
其 中 x 是 成 功 的 次 数 ， 或 是 一 个 由 成 功 数 和 失败 数 构成 的 二 维 向 量 . n 是 试验 
总 数 ， 当 x 是 二 维 向 量 时 ， 此 值 无 效 . p 是 原 假设 的 概率 . 
例 5.6 有 一 批 蔬 菜 种 子 的 平均 发 芽 率 po = 0.85, 现 随 机 抽取 500 粒 ， 用 种 衣 剂 
进行 浸种 处 理 ， 结 果 有 445 粒 发 芽 ， 试 检验 种 衣 剂 对 种 子 发 芽 率 有 无 效果 . 
解 : 根据 题 意 ， 所 检验 的 问题 为 : 


Ho :p= po = 0.85, Hi:pA#po. 


调用 binom.test() 函数 ， 
> binom.test(445,500,p=0.85) 
EXact binomial test 
data: 445 and 500 
number of successes = 445, number of trials = 500, p-value = 0.01207 
alternative hypothesis: true probability of success is not equal to 0.85 
95 percent confidence interval: 
0.8592342 0.9160509 
sample estimates: 
probability of success 
0.89 
PP 一 值 = 0.01207 < 0.05, 拒绝 原 假 设 ， 认 为 种 衣 剂 对 种 子 发 藻 率 有 显著 效果 ， 
从 区 间 佑 计 值 来 看 ， 种 衣 剂 可 以 提高 种 子 的 发 芽 率 . 
我 们 可 作 单 侧 检 验 来 证 实 这 一 结论 . 下面 举 一 个 单 侧 检 验 的 例子 . 
例 5.7 据 以 往 经 验 ， 新 生 儿 染色 体 异常 率 一 般 为 1%, 某 医院 观察 了 当地 400 名 
新 生 儿 ， 只 有 了 例 染 色 体 异常 ， 问 该 地 区 新 生 儿 染色 体 异 常 是 否 低 于 一 般 水 平 ? 
解 : 根据 题 意 ， 所 检验 的 问题 为 ; 


Ho:p>0.01, Hi:p<0.01. 





调用 binom.test() 函数 ， 
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> binom.test(1, 400, p = 0.01, alternative = "less") 
Exact binomial test 
data: 1 and 400 
number of successes = 1, number of trials = 400, p-value = 0.09048 
alternative hypothesis: true probability of success is less than 0.01 
95 percent confidence interval: 
0.00000000 0.01180430 
sample estimates: 
probability of success 
0.0025 
PP 一 值 = 0.09048 > 0.05 = a, 并 不 能 认为 该 地 区 新 生 儿 染色 体 蜡 常 率 低 于 一 般 
水 平 ， 男 外 ， 从 区 间 佑 计 值 也 能 说 明 这 一 点 ， 区 间 佑 计 的 上 界 为 0.0118 > 0.01. 
男 一 种 输入 方法 
> binom.test(c(1, 399), p = 0.01, alternative = "less'") 


具有 同样 的 结果 . 


5.3 ”若干 重要 的 非 参 数 检验 


在 统计 推断 问题 中 ， 辱 给 定 或 假定 了 总 体 分布 的 具体 形式 (如 正 态 分 布 ), 只 
是 其 中 含有 若干 未 知 参 数 , 要 基于 来 自 总 体 分 布 对 参数 做 出 估计 或 者 进行 某 种 形 
式 的 假设 检验 ， 这 类 推断 方法 称 为 参数 方法 . 

但 在 许多 实际 问题 中 ， 人 们 往往 对 总 体 的 分 布 知之 其 少 , 很 难 对 总 体 的 分 布 
形式 作出 正确 的 假定 ,最 多 只 能 对 总 体 的 分 布 做 出 诸如 连续 型 分 布 、 关 于 茶点 对 
称 分 布 等 一 般 性 的 假定 . 这 种 不 假定 总 体 分 布 的 具体 形式 ， 尽量 从 数据 (或 样本 ) 
本 里 来 获得 所 需要 的 信息 的 统计 方法 称 为 非 参 数 方法 . 

对 于 非 参数 方法 的 检验 问题 称 为 非 参 数 检验 法 , 它 涉 及 的 范围 很 广 , 这 里 只 
能 介绍 几 种 与 R 软件 有 关 的 、 在 应 用 上 较为 重要 的 检验 法 . 








5.3.1 Pearson 拟 合 优 度 x? 检验 


前 面 几 节 介绍 的 假设 检验 问题 称 为 参数 检验 问题 , 即 事先 认为 样本 分 布 具有 
某 种 指定 的 形式 ,而 其 中 的 一 些 参 数 未 知 , 检验 的 目标 是 关于 某 个 参数 落 在 特定 
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的 范围 内 的 假设 . 这 里 要 介绍 的 是 另 一 类 假设 ,其 目标 不 是 针对 具体 的 参数 ， 而 
是 针对 分 布 的 类 型 . 例如 , 通常 假定 总 体 分 布 具 有 正 态 性 ， 则 “总 体 分 布 为 正 态 ” 
这 一 断言 本 身 在 一 定 场合 下 就 是 可 疑 的 ， 有 符 于 检验 , 

在 第 三 章 ， 我 们 通过 直方 图 、 QQ 图 和 经 验 分 布 图 大 概 描 述 观 测 数据 是 否 
服从 某 种 分 布 ， 这 里 介绍 如 何 用 统计 方法 检验 观测 数据 是 否 服从 某 种 分 布 .在 第 
三 章 介绍 的 W 正 态 性 检验 和 Kolmogorov-Smirnov 检验 都 属于 拟 合 优 度 检验 . 

1. 理论 分 布 完全 已 知 的 情况 

假设 根据 某 理 论 、 学 说 甚至 假定 ， 某 随机 变量 应 当 有 分 布 已 , 现 对 X 进行 n 
次 观察 ， 得 到 一 个 样本 Xi, X2,.…, Xn, 要 据 以 检验 

Ho : X 具有 分 布 . 
这 里 虽然 没有 明确 指出 对 立 假设 ,但 可 以 说 ,对立 假设 是 
Hi: XxX 不 具有 分 布 a 
本 问题 的 真实 含义 是 估量 实测 数据 与 该 理论 或 学 说 符合 得 怎么 样 , 而 不 在 于 当 认 
为 不 符合 时 ， X 可 能 备 择 的 分 布 如 何 ， 故 问题 中 不 明确 标 出 对 立 假 设 ， 反 而 使 
人 感到 提 法 更 为 贴近 现实 . 
上 述 问 题 的 检验 方法 是 ， 将 数 轴 (一 0o, co) 分 成 m 个 区 间 : 





























A 一 (一 co, a1), 1 一 [ai， a2), 生 光 ,Tm 一 [lam_1, oo). 
记 这 些 区 间 的 理论 概率 分 别 为 
D1, Pp2,*** , Pm, pi= P{X €1i}, i=1,2,...,m. 


记 ma 为 Xi, 2,… ,Xn 中 落 在 区 间 五 内 的 个 数 ， 则 在 原 假设 成 立 下 ， ni 的 期 

望 值 为 np;, ni 与 np; 的 差距 (i = 1,2,…,m) 可 视 为 理论 与 观察 之 间 偏 离 的 衡 

量 ， 将 它 结合 起 来 形成 一 个 综合 指标 : Dons 一 np;)”, 其 中 ci > 0 为 适当 的 
Se 


~ (ni 一 Ti 
J 2 
2 es (5.16) 
称 K 为 Pearson x? 统计 量 . Pearson 证 明了 , 在 原 假设 成 立 的 条 件 下 , 当 n 一 co 
时 ， K 依 分 布 收敛 于 自由 度 为 m 一 1 的 x? 分布， 在 这 个 基础 上 ，3 引 进 一 个 大 
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样本 检验 : 给 定 显 车 性 水 平 a, 当 
K>x (m1) (5.17) 


则 拒绝 原 假设 .这 就 是 Neyman-Pearson 拟 合 优 度 Xx? 检验 . 

这 个 问题 还 可 以 讨论 得 更 细 一 些 ， 按 式 (5.17), 只 要 玉 > X2(m 一 1), 就 否定 
原 假设 ,但 是 一 个 远 远 大 于 xa(m 一 1) 的 天 与 一 个 只 略 大 于 xa(m 一 1) 的 天 ， 
意义 有 所 不 同 ， 前 者 否定 的 理由 更 强 一 些 ， 为 反映 这 一 点 ， 在 计算 出 KK 值 后 ， 
可 计算 出 P- 值 ， 








P- 值 = P{x(m 一 1 > 天] (5.18) 


可 将 P 一 值 称 为 所 得 数据 与 原 假设 的 似 合 优 度 . PP 一 值 越 大 ， 支 持原 假设 的 证 
据 就 越 强 . 给 定 一 个 显著 性 水 平 a, 当 忆 - 值 < a, 就 拒绝 原 假设 . 

例 5.8 某 消费 者 协会 为 了 确定 市 场 上 消费 者 对 5 种 品牌 啤酒 的 喜好 情况 ， 随 机 
抽取 了 1000 名 啤酒 爱好 者 作为 样本 进行 如 下 试验 : 每 个 人 得 到 5 种 品牌 的 啤酒 
各 一 瓶 ， 但 未 标明 牌子 . 这 5 种 啤酒 按 分 别 写 着 4、B、C、D、 忆 字 妈 的 
5 张 纸 片 随机 的 顺序 送 给 每 一 个 人 , 表 5.1 是 根据 样本 资料 整理 得 到 的 各 种 品牌 
啤酒 爱好 者 的 频数 分 布 ， 试 根 据 这 些 数 据 判断 消费 者 对 这 5 种 品牌 啤酒 的 爱好 
有 无 明显 差异 ? 





表 5.1: 5 种 品牌 啤酒 爱好 者 的 频数 
最 喜欢 的 牌子 | A B C D E 


人 数 入 210 312 170 85 223 


解 : 如 果 消 费 者 对 5 种 品牌 啤酒 喜好 无 显著 差异 ， 那 么 ， 就 可 以 认为 喜好 这 
5 种 品牌 啤酒 的 人 呈 均 匀 分 布 ， 即 5 种 品牌 啤酒 爱好 者 人 数 各 占 20%. 据 此 假 


设 ， 





Ho : 喜好 5 种 啤酒 的 人 数 分 布 均匀 . 
按 式 (5.16) 和 式 (5.17) 编写 计算 公式 ， 用 R 软件 计算 . 
> X<-c(210，312，170，85，223) 
> n<-sum(X); m<-length(X) 
> p<-rep(1i/m, m) 
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> K<-sum((X-n*p) “2/(n*p));K 

[1] 136.49 

> Pr<-1-pchisgq(K, m-1);Pr 

[1] 0 
PP 一 值 为 0, 因此， 拒绝 原 假设 ， 认 为 消费 者 对 5 种 品牌 啤酒 的 喜好 是 有 明显 差 
异 . 

我 们 可 以 将 上 述 过 程 编写 成 一 个 程序 进行 计算 ， 实 际 上 ， R 软件 已 完成 了 
此 项 工作 ， 所 提供 的 chisq.test() 函数 可 以 方便 地 完成 此 项 工作 .我 们 只 需 输 
入 

> chisg.test(X) 
就 可 以 得 到 
Chi-squared test for given probabilities 
data: X 
X-squared = 136.49, df = 4, p-value < 2.2e-16 


chisq.test() 函数 的 使 用 格式 为 
chisq.test(x, y = NULL, correct = TRUE， 
p = rep(il/length(x), length(x)), rescale.p = FALSE， 
simulate.p.value = FALSE, B = 2000) 
其 中 x 是 由 观测 数据 构成 的 向 量 或 矩阵 ， y 是 数据 向 量 ( 当 x 为 矩阵 时 ，y 无 
效 ). correct 是 逻辑 变量 ， 表 明 是 否 用 于 连续 修正 ， TRUE( 缺 省 值 ) 表示 修正 ， 
FALSE 表示 不 修正 ，P 是 原 假设 落 在 小 区 间 的 理论 概率 , 缺 省 值 表示 均匀 分 布 . 
rescale.p 是 逻辑 变量 ， 选 择 FALSE( 缺 省 值 ) 时 ， 要 求 输入 的 p 满足 Pi = 1; 
选择 TRUE 时 ， 并 不 要 求 这 一 点 ， 程 序 将 重新 计算 p 值 . simulate.p.value 是 
逻辑 变量 ( 缺 省 值 为 FALSE), 当 为 TRUE, 将 用 仿真 的 方法 计算 P- 值 ， 此 时 ， B 
表示 仿真 的 次 数 . 
例 5.9 用 Pearson 拟 合 优 度 X? 检验 方法 检验 例 3.6 中 学 生成 绩 是 否 服 从 正 态 分 
市. 
解 : 我 们 分 儿 步 进行 ， 然 后 将 这 些 步 又 编写 成 R 程序 进行 计算 . 
第 一 步 ， 先 输入 数据 ， 这 里 用 scan() 函数 . 
第 二 步 : 对 31 名 学 生成 绩 进行 分 组 , 计算 各 组 的 频数 , 其 中 41 = {X < 70}， 
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As = {70<X<80), 4 ={80<X<90} 4 ={90<X<100}. 这 里 调用 
cut() 函数 和 table() 函数 进行 分 组 和 记 数 . 
第 三 步 : 计算 原 假设 ( 正 态 分 布 ) 在 各 小 区 间 的 理论 概率 值 ， 先 计算 学 生成 
绩 的 均值 (mean) 、 标 准 差 (sqd), 再 用 pnorm() 计算 理论 概率 . 
第 四 步 ， 作 Pearson x? 检验 . 调用 chisq.test() 函数 . 
下 面 写 出 相应 的 及 程序 (程序 名 :， exam0509 .BR) 
#### 第 一步， 输入 数据 
X<-scan() 
25 45 50 54 55 61 64 68 72 75 75 


78 79 81 83 84 84 84 85 86 86 86 
87 89 89 89 90 91 91 92 100 














#### 第 二 步 ， 分 组 和 记 数 
A<-table(cut (X, br=c(0,69,79,89,100))) 
#### 第 三 步 ， 构 造 理论 分 布 
p<-pnorm(c(70,80,90,100), mean(X), sd(X)) 
p<-c(p[1], p[2]-p[1], p[3]-p[2] ,1-p[L3]) 
#### 第 四 步 ， 作 检验 
chisq.test(A,p=p) 
计算 结果 如 下 : 
Chi-squared test for given probabilities 
data: A 
X-squared = 8.334, df = 3, p-value = 0.03959 
P- 值 = 0.03959 < 0.05, 因此 认为 该 门 课程 的 成 绩 不 服从 正 态 分 布 . 
在 这 个 例子 中 用 到 了 两 个 函数 ， 一 个 是 cut () 函数 ， 另 一 个 是 table() 函 
数 ， 下 面 简单 介绍 这 两 个 函数 的 用 法 . 
cut () 函数 是 将 变量 的 区 域 分 成 奉 干 个 区 间 ， 其 使 用 方法 是 : 
cut(x, breaks, labels = NULL, 








include.lowest = FALSE, right = TRUE, dig.lab = 3, ...) 
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其 中 x 是 由 数据 构成 的 向 量 ， breaks( 简 写 为 br) 是 所 分 区 间 的 端点 构成 的 加 
量 . 
table() 函数 是 计算 因子 合并 后 的 个 数 ， 其 使 用 方法 是 ; 


table(..., exclude = c(NA, NaN), dnn = list.names(...), 





deparse.level = 1) 
这 里 用 这 两 个 函数 计算 随机 变量 落 在 某 个 区 间 的 频数 . 
例 5.10 大 麦 的 杂交 后 代 关 于 芒 性 的 比例 应 是 无 芒 : 长 芒 : 短 芒 二 9:3:4. 
际 观测 值 为 335 : 125 : 160. 试 检验 观测 值 是 否 符合 理论 假设 ? 
解 : 根据 题 意 ， 


将 


调用 chisq.test() 郴 数 
> chisq.test(c(335, 125, 160), p=c(9,3,4)/16) 

Chi-squared test for given probabilities 
data: c(335, 125, 160) 
X-squared = 1.362, df = 2, p-value = 0.5061 
PP 一 值 = 0.5061 > 0.05, 接受 原 假设 ， 即 大 麦 芷 性 的 分 离 符合 9 : 3 :4 的 比例 . 
例 5.11 为 研究 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 是 否 服从 Poisson 分 布 ， 
现 收集 了 42 个 数据 ， 如 表 5.2 所 示 ， 通过 对 数据 的 分 析 ， 问 能 否 确认 在 某 段 时 
间 内 接 到 的 呼叫 次 数 服从 Poisson 分 布 (a = 0.1)? 


表 5.2: 电话 总 机 在 某 段 时 间 内 接 到 的 呼叫 次 数 的 频数 
接 到 呼唤 次 数 0 1 2 3 4 5 6 
出 现 的 频数 7 10 12 8 3 2 0 


解 : 编写 相应 的 计算 程序 (程序 名 :exam0511.R) 
#### 输入 数据 
X<-0:6; Y<-c(7, 10, 12, 8, 3,2,0) 

#### 计算 理论 分 布 ， 其 中 mean(rep(X,Y)) 为 样本 均值 
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q<-ppois(X, mean(rep(X,Y))); n<-length(Y) 
p[L1i]j<-gq[1]; pln]<-1-q[n-1] 
for (i in 2:(n-1)) 
pli]<-q[i]-q[i-1] 
#### 作 检 验 
chisq.test(Y, p=p) 
但 计算 结果 会 出 现 帝 告 . 
Chi-squared test for given probabilities 
data: 了 
X-squared = 1.5057, df = 6, p-value = 0.9591 
Warning message: 
Chi-squared 近似 算法 有 可 能 不 准 in: chisq.test(Y, p = p) 
为 什么 会 出 现 这 种 情况 呢 ? 这 是 因为 Pearson X” 检验 要 求 在 分 组 后 ， 每 组 
中 的 频数 至 少 要 大 于 等 于 5, 而 后 三 组 中 出 现 的 频数 分 别 为 3, 2, 0, 均 小 于 5. 解 
决 问题 的 方法 是 将 后 三 组 合成 一 组 ， 此 时 的 频数 为 5, 满足 要 求 .下面 给 出 相应 
的 R 程序. 
#### 重新 分 组 








Z<-c(7, 10, 12, 8,5) 

#### 重新 计算 理论 分 布 

n<-length(Z); p<-pli:n-1]; pln]<-1-q[n-1] 
#### 作 检 验 

chisq.test(Z, p=p) 





计算 得 到 
Chi-squared test for given probabilities 
data: Zz 
X-squared = 0.5389, df = 4, p-value = 0.9696 
P- 值 > 0.1, 因此 ， 能 确认 在 某 段 时 间 内 接 到 的 呼叫 次 数 服从 Poisson 分 

布 . 

从 例 5.11 的 结果 可 以 看 出 ， 在 习题 4.9 中 ， 将 在 某 段 时 间 内 接 到 的 呼叫 次 
认为 数 服从 Poisson 分 布 是 合理 的 . 
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2. 理论 分 布依 赖 于 若干 个 未 知 参数 的 情况 

如 果 分 布 族 了 依赖 于 7 个 参数 01,0,,.…,0,, 要 根据 样本 Xi1, XX2,-…, Xi 去 
检验 假设 

EH : X 的 分 布 属于 {F(z, 01, 0», i 0.)}. 

解决 这 个 问题 的 步骤 是 ， 先 通过 样本 作出 (01, 92,…,0.) 的 极 大 似 然 估 计 

(90 …, 包 ) 再 检验 假设 
吾 : X 有 分 布 下 (z,0, 0 0) 

然后 再 按理 论 分 布 已 知 的 情况 进行 处 理 ， 所 不 同 的 是 由 式 (5.16) 得 到 的 统计 量 
KK 服从 自由 度 为 m 一 1 一 7 的 x 分布 即 自由 度 减 少 了 7. 


5.3.2 ”Kolmogorov-Smirnov 检验 


在 第 三 章 描述 性 统计 中 ， 介 绍 了 Kolmogorov-Smirnov 检验 ， 该 检验 实际 上 
是 属于 拟 合 优 度 检验 . 这 里 再 进出 一 步 介绍 它 的 使 用 方法 . 

Kolmogorov-Smirnov 检验 有 单 样本 检验 和 双 样 本 检验 ， 在 第 三 章 中 我 们 介 
绍 的 就 是 单 样本 检验 的 使 用 方法 . 

1. 单 样本 检验 

通过 第 三 章 的 介绍 ,我们 知道 Kolmogorov-Smirnov 检验 是 通过 经 验 分 布 与 
假设 分 布 的 上 确 界 来 构造 统计 量 的 ， 因 此 理论 上 可 以 检验 任何 分 布 ， 即 原 假设 为 

Ho : X 具有 分 布 F. 

R 软件 提供 了 Kolmogorov-Smirnov 检验 的 函数 ks .test(), 我 们 用 例子 进 
一 步 说 明 它 的 使 用 方法 . 
例 5.12 对 一 台 设 备 进行 奉命 检验 ， 纪 录 10 次 无 故障 工作 时 间 ， 并 按 从 小 到 大 
的 次 序 排列 如 下 : (单位: 小时) 

420 500 920 1380 1510 1650 1760 2100 2300 2350 
试用 Kolmogorov-Smirnov 检验 方法 检验 此 设备 无 故障 工作 时 间 的 分 布 是 否 服 从 
入 一 1/1500 的 指数 分 布 ? 

解 : 输入 数据 ， 调 用 ks .test() 函数 . 
> X<-c(420，500，920，1380，1510，1650，1760，2100，2300，2350) 
> ks.test(X, "pexp", 1/1500) 
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One-sample Kolmogorov-Smirnov test 
data: X 
D = 0.3015, p-value = 0.3234 
alternative hypothesis: two.sided 
其 忆 - 值 大 于 0.05, 无 法 拒绝 原 假设 ,因此 认为 此 设备 无 故障 工作 时 间 的 分 布 服 
从 入 = 1/1500 的 指数 分 布 . 


2. 双 样 本 检验 

假设 Xi X2， :…, Xn 为 来 自分 布 为 下 (z) 总 体 的 样本 ， 且 (x) 未知， 六， 
二 ,……, Yi 为 来 自分 布 为 G(x) 总体 的 样本 ， 且 G(x) 未 知 . 假定 了 P(x) 和 G(x) 
均 为 连续 分 布 函数 ， 检 验 这 两 分 布 是 否 相 同 ， 即 原 假设 为 
例 5.13 假定 从 分 布 函数 为 未 知 的 F(Z) 和 G(T) 的 总 体 中 分 别 抽 出 25 个 和 20 
个 观察 值 的 随机 样本 ， 其 数据 由 表 5.3 所 示 ， 现 检验 F(z) 和 G(z) 是 否 相 同 . 





表 5.3: 抽 自 不 同 分 布 的 数据 
0.61 0.29 0.06 0.59 -1.73 -0.74 0.51 -0.56 0.39 


1.64 0.05 —0.06 0.64 —0.82 0.37 1.77 1.09 ”一 1.28 
2.36 1.31 1.05 —0.32 一 0.40 1.06 一 2.47 

2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 一 0.30 0.66 2.31 3.29 ”一 0.27 一 0.37 0.38 0.70 
0.52 一 0.71 





解 : 编写 相应 的 计算 程序 (程序 名 ;exam0513.R). 
#### 输入 数据 
X<-scan() 
0.61 0.29 0.06 0.59 -1.73 -0.74 .51 -0.56 0.39 
1.64 0.05 -0.06 0.64 -0.82 0.37 1.77 1.09 -1.28 
2.36 1.31 1.05 -0.32 -0.40 1.06 -2.47 














OO 
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Y<-scan() 

2.20 1.66 1.38 0.20 0.36 0.00 0.96 1.56 0.44 
1.50 -0.30 0.66 2.31 3.29 -0.27 -0.37 0.38 0.70 
0.52 -0.71 


#### 作 人 -9 检验 
ks.test(X, Y) 


Two-sample Kolmogorov-Smirnov test 

data: X and Y 
D = 0.23, p-value = 0.5286 
alternative hypothesis: two.sided 
PP 一 值 大 于 0.05, 故 接受 原 假设 Ho, 即 认 为 F(z) 和 G(x) 两 个 分 布 函 数 相同 . 

Kolmogorov-Smirnov 检验 与 Pearson x? 检验 相 比 ， Kolmogorov 检验 不 须 
将 样本 分 组 ， 少 了 一 个 任意 性 ， 这 是 其 优点 . 其 缺点 是 只 有 用 在 理论 分 布 为 一 维 
连续 分 布 且 分 布 完全 已 知 的 情形 ， 适 用 面 比 Pearson 检验 小 .研究 也 显示 : 在 
Kolmogorov 检验 可 用 的 场合 下 ， 其 功效 一 般 来 说 略 优 于 Pearson 检验 . 





5.3.3 “” 列 联 表 数据 的 独立 性 检验 


设 两 个 随 要 变量 X,Y 均 为 离散 型 的 ， X 取 值 于 {ai, a2,…,ar}, 工 的 取 
值 于 {01, bo2， 2 DJ 上 设 (Xi, Y), (Xs, YY), RG (Xn， Y,) 为 简单 样本 ， 记 Tij 为 
(Xi, Y), (X,, YY), 1 (Xn， Y,) 中 等 于 (ai b;) 的 个 数 ， 要 据 此 检验 假设 
万:X 与 了 独立 . 
1. Pearson x? 检验 
在 求解 问题 时 , 常 把 数据 列 为 表 5.4 的 形式 , 称 为 列 联 表 (contingency table). 


记 


P{X; 一 ai, Y; 一 b;}, 


J I 
P{Xi=0)} = py, ps; = P{Y; = 0b} = 2 pi 


j=1 i=1 


Pij 


Pi. 
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表 5.4: 列 联 表 
Q1 N1. 
Q2 72. 
QT NT. 
2 
则 假设 瑟 可 表示 为 
H: Pi; 二 Pi. ° Pp.j, i= 1,2,.……,J, j= 1,2,.……,J. (5.19) 


I J 
这 里 只 知道 pi,pj > 0, 站 pi = 1,》2 pj = 1 而 其 它 情况 未 知 ， 所 以 这 是 一 个 带 
i=1 j=1 


参数 Di., (i 一 1, 2, 四 17), DP.j) (7 = 1, 2, 四 J]) 的 拟 合 优 度 检验 问题 . 因此 ， 需要 
先 用 极 大 似 然 估计 来 估计 pi, p.j, 得 到 


J I 
其 中 ni = 2 nij, mj 二 2 nij. 这 样 就 可 以 计算 Pearson X” 统计 量 
=1 i=1 


7 一 


K= > > [ny —n (全 1 = > nn — mi . (5.20) 


然后 再 计算 自由 度 ， X,Y) 的 值 域 一 共 划 分 成 17 个 集合 ， 但 估计 了 一 些 
未 知 参数 ， 由 于 pi = 1, pr(i = 1,2,…, 了 ) 中 未 知 参数 只 有 了 一 1 个, 同 理 ， 


Dj = 1,2,…,J) 中 未 知 参数 只 有 J 一 1 个 ， 故 共有 了 十 一 2 个 未 知 参数 ， 而 
KK 的 自由 度 就 为 


tN | 
这 样 在 计算 出 天 值 后 ， 其 拒绝 域 为 


EK > TDD) 
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或 计算 其 P-_ 值 
P- 值 =Pf2(C-DU -DTD)> K}. 


当 了 = 了 7 了 = 2 时 ， 列 联 表 中 只 有 4 个 格子 ， 称 为 “四 格 表 ”, 这 时 式 (5.20) 简 
单 化 为 
m(ml17222 一 7127221)2 


及 一 
11.722.72.172.2 


自由 度 为 1. 

chisq.test() 函数 也 可 以 作 独 立 性 检验 ， 只 需 将 列 联 表 数 据 写成 矩阵 形式 
即 可 . 
例 5.14 为 了 研究 吸烟 是 否 与 患 肺癌 有 关 ， 对 63 位 肺癌 患者 及 43 名 非 肺癌 串 
者 (对 照 组 ) 调查 了 其 中 的 吸烟 人 数 ， 得 到 2 x 2 列 联 表 ， 如 表 55 所 示 . 


表 5.5: 列 联 表 数 据 
患 肺癌 未 患 肺癌 合计 


吸烟 32 92 
不 吸烟 14 
合计 106 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
> x<-c(60, 3, 32,11) 
> dim(x)<-c(2,2) 
> chisq.test(x,correct = FALSE) 
Pearson’s Chi-squared test 
data: X 
X-squared = 9.6636, df = 1, p-value = 0.001880 
或 带 连 续 校正 . 
> chisg.test(x) 


Pearson’s Chi-squared test with 
Yates’ continuity correction 
data: xX 


X-squared = 7.9327, df = 1, p-value = 0.004855 
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无 论 是 哪 种 方法 ， 其 P 一 值 均 小 于 0.05, 因此 拒绝 原 假设 ， 也 就 是 说 吸烟 与 
患 肺癌 有 关 . 
例 5.15 在 一 次 社会 调查 中 ， 以 问卷 方式 调查 了 总 共 901 人 的 年 收入 及 对 工作 的 
满意 程度 ， 其 中 年 收入 4 分 为 小 于 6000 元 、 6000 元 至 15000 元 、 15000 元 
至 85000 元 及 超过 25000 元 四 档 ， 对 工作 的 满意 程度 B 分 为 很 不 满意 、 较 不 满 
意 、 基 本 满意 和 很 满意 四 档 ， 调查 结果 用 4 x 4 列 联 表 表示 ， 如 表 5.6 所 示 . 


表 5.6: 工作 满意 程度 与 年 收入 列 联 表 
很 不 满意 ” 较 不 满意 ”基本 满意 


< 6000 
6000 ~ 15000 
15000 ~ 25000 

> 25000 


合计 





解 : 输入 数据 ， 用 chisq.test() 作 检 验 . 
x<-scan() 
20 24 80 82 22 38 104 125 
13 28 -81 113 7 18 54 92 


dim(x)<-c(4,4) 
chisq.test (x) 

Pearson’s Chi-squared test 
data: X 


X-squared = 11.9886, df = 9, p-value = 0.2140 
其 P 一 值 均 大 于 0.05, 接受 原 假设 ， 即 工作 的 满意 程度 与 年 收入 无 关 . 
在 用 chisq.test() 函数 作 计 算 时 ， 要 注意 单元 的 期 望 频数 . 如 有 果 没 有 空 单 
元 (所 有 单元 频数 都 不 为 零 ), 并 且 所 有 单元 的 期 望 频数 大 于 等 于 5, 那么 Pearson 
Xx” 检验 是 合理 的 ， 否 则 计算 机 会 显示 警告 信息 . 
如 果 数 据 不 满足 x? 检验 的 条 件 时 ， 应 使 用 Fisher 精确 检验 . 
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2. Fisher 精确 的 独立 检验 
在 样本 较 小 时 (单元 的 期 望 频数 小 于 4), 需要 用 Fisher 精确 检验 来 作 独 并 性 


IY. 

Fisher 精确 检验 最 初 是 针对 2 x 2 这 种 特殊 的 列 联 表 提 出 的 . 当 x? 检验 的 
条 件 不 满足 时 ， 这 个 精确 检验 是 非常 有 用 的 . ”Fisher 检验 是 建立 在 超 几 何 分 布 
的 基础 上 ， 对 于 单元 频数 小 的 表 来 说 ， 特 别 适合 . 

这 里 不 再 推导 相关 的 统计 量 ， 而 是 直接 绘 出 R 软件 关于 Fisher 精确 检验 的 
方法 . 
例 5.16 某 医师 为 研究 乙肝 免疫 球 蛋 白 预 防 胎 儿 宫 内 感染 HBV 的 效果 ， 将 33 
例 了 BsAg 阳性 孕妇 随机 分 为 预防 注射 组 和 对 照 组 ， 结 果 由 表 5.7 所 示 . 问 两 组 
新 生 儿 的 HBV 总 体感 染 率 有 无 差别 ? 





表 5.7: 两 组 新 生 儿 HBYV 感染 率 的 比较 
组 别 阳性 ”阴性 
预防 注射 组 
对 照 组 


合计 





解 ; 有 一 个 单元 频数 小 于 5, 应 该 作 Fisher 精确 概率 检验 . 
在 R 软件 中 ， 函 数 fisher.test() 作 精 确 概率 检验 .其 使 用 方法 是 
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, 
control = list(), or = 1, alternative = "two.sided", 
conf.int = TRUE, conf.level = 0.95) 
其 中 x 是 具有 二 维 列 联 表 形 式 的 窍 阵 或 是 由 因子 构成 的 对 象 ，y 是 由 因子 构成 的 
对 象 , 当 x 是 矩阵 时 , 此 值 无 效 ，workspace 的 输入 值 是 一 整数 , 其 整数 表示 用 于 
网 络 算法 工作 空间 的 大 小 ，hybrid 为 逻辑 变量 ，FALSE( 缺 省 值 ) 表示 精确 计算 概 
率 ，TRUE 表示 用 混合 算法 计算 概率 .alternative 为 备 择 , 有 '"two.sided"( 缺 
省 值 ) 双边 ，"less" 单 边 小 于 ，"greater" 单 边 大 于 . conf .int 逻辑 变量 ， 
当 conf ,int=TRUE( 缺 省 信 ), 给 出 区 间 估计 ， conf .1evel 为 置信 水 平 ， 缺 省 什 
为 0.95. 其 余 参 数 见 在 线 说 明 . 
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对 于 2 x 2 列 联 表 ， 原 假设 “两 变量 无 关 ” 等 价 于 赔 率 比 (odds rate) 等 于 1. 
输入 数据 ， 并 计算 Fisher 检验 
> x<-c(4,5,18,6); dim(x)<-c(2,2) 
> fisher.test (x) 
Fisher’s Exact Test for Count Data 
data: X 
p-value = 0.1210 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
0.03974151 1.76726409 
sample estimates: 
odds ratio 


0.2791061 


因为 P- 值 = 0.1210 > 0.05, 且 区 间 估 计 得 到 的 区 间 包 含有 1, 因此 说 明 两 
变量 是 独立 的 ， 即 认为 两 组 新 生 儿 的 HBV 总 体感 染 率 无 差别 . 

如 果 用 Pearson x? 检验 (chisq.test() 函数 ) 对 这 组 数据 作 检 验 时 ， 你 会 
发 现 计 算 机 在 得 到 结果 的 同时 ， 给 出 警告 ， 认 为 其 计算 值 可 能 有 误 . 

用 Fisher 精确 检验 (fisher.test() 函数 ), 对 例 5.14 的 数据 作 检验 ， 得 到 
> x<-c(60, 3, 32, 11); dim(x)<-c(2,2) 
> fisher.test (x) 

Fisher’s Exact Test for Count Data 
data: X 
p-value = 0.002820 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 
1.626301 40.358904 

sample estimates: 
odds ratio 


6.74691 


其 P- 值 小 于 0.05, 因此 拒绝 原 假设 ， 即 认为 吸烟 与 患 肺癌 有 关 ， 由 于 赔 率 比 大 
于 1, 因此 还 是 正 相 关 ， 也 就 是 说 ， 吸 烟 越 多 ， 上 患 肺 瘤 的 可 能 性 也 就 越 大 . 
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3. McNemar 检验 


McNemar 检验 虽然 不 是 独立 性 检验 ， 但 它 是 关于 列 联 表 数 据 的 检验 ， 所 以 
放 在 这 里 来 处 理 . 

McNemar 检验 是 在 相同 个 体 上 的 两 次 检验 ， 检 验 两 无 数据 的 两 个 相关 分 布 
的 频数 比 变 化 的 显著 性 . 

如 果 作 为 样本 的 一 批 个 体 分 别 在 某 一 时 间 间 隔 或 不 同 条 件 下 作 两 次 研究 , 比 
如 是 关于 二 元 特征 的 强度 ， 那么 确定 研究 的 不 再 是 独立 的 样本 , 而 是 相关 样本 . 
每 个 试验 单元 可 提供 一 对 数据 . 从 第 一 次 到 第 二 次 研究 中 ， 两 种 选择 的 频数 比率 
有 或 多 或 少 的 改变 .McNemar 检验 是 检验 这 个 变化 强度 ， 它 能 较 精确 地 得 知 在 
第 一 次 和 第 二 次 研究 之 间 有 多 少 个 体 从 这 一 类 变 成 另 一 类 . 我 们 可 以 得 出 具有 第 
一 次 研究 划分 出 的 两 类 和 第 二 次 研究 划分 出 的 两 类 的 列 联 表 ， 如 图 5.8 所 示 . 





表 5.8: 不 同方 法 的 研究 结果 

研究 I 全 1 
(0h 
C 


b Q 十 
da c+d 
ET 


问题 的 原 假设 为 
Ho : 在 这 个 总 体 中 两 次 研究 的 频数 没有 区 别 . 

原 假设 表示 频数 5 和 c 只 表示 在 这 个 样本 中 的 随机 变 差 . 

在 及 软件 中 ， mcnemar.test() 函数 给 出 了 McNemar 检验 ， 其 具体 的 使 用 
方法 是 

mcnemar.test(x, y = NULL, correct = TRUE) 
其 中 x 是 具有 二 维 列 联 表 形 式 的 窍 阵 或 是 由 因子 构成 的 对 象 .，y 是 由 因子 构成 
的 对 象 ， 当 x 是 矩阵 时 ， 此 值 无 效 . correct 是 逻辑 变量 ， TRUE ( 缺 省 值 ) 表示 
在 计算 检验 统计 量 时 用 连续 修正 ， FALSE 是 不 用 修正 . 
例 5.17 某 胸 科 医院 同时 用 甲 、 乙 两 种 方法 测定 202 份 痰 标本 中 的 抗 酸 杆 菌 ， 结 
果 如 表 5.9 所 示 . 问 甲 、 乙 两 法 的 检 出 率 有 无 差别 ? 
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表 5.9: 甲 、 乙 两 法 检测 痰 标本 中 的 抗 酸 杆 菌 结 果 


甲 法 合计 
人 74 
加 128 

合计 202 





解 : 输入 数据 ， 调 用 mcnemar .test() 函数 作 McNemar 检验 . 
> X<-c(49, 21, 25, 107); dim(X)<-c(2,2) 
> mcnemar.test(X,correct=FALSE) 
McNemar’s Chi-squared test 
data: XX 
McNemar’s chi-squared = 0.3478, df = 1, p-value = 0.5553 
其 统计 量 为 0.3478, P 一 值 为 0.5553 > 0.05, 因此 ， 不 能 认定 两 种 检测 方法 





5.3.4 ”符号 检验 


1. 检验 一 个 样本 是 否 来 自 某 个 总 体 


假设 某 个 总 体 的 中 位 数 为 Mo, 如 果 样 本 中 位 数 M = Wo, 我 们 就 接受 样本 
来 自 某 个 总 体 的 假设 . 其 具体 的 检验 方法 是 这 样 的 . 首先 从 每 个 样本 观察 值 中 减 
去 总 体 中 位 数 Wo, 得 出 的 正 、 负 差额 用 正 (十 ) 、 负 (一 ) 号 加 以 表示 . 如果 总 体 
中 位 数 等 于 样本 中 位 数 ， 即 M = Wo, 那么， 样本 观察 值 在 中 位 数 上 、 下 的 数目 
应 各 占 一 半 ， 因 现时 出 现 正 号 或 负 号 的 概率 应 各 占 1/2. 设 样本 容量 为 n, 就 可 以 
用 二 项 分 布 B(n,1/2) 来 计算 出 现 负 号 (或 正 号 ) 个 数 的 概率 ， 从 而 根据 一 定 的 显 
著 性 水 平 a, 作出 是 否 接受 原 假设 Ho : M = Mo 的 判定 . 
例 5.18 联合 国人 员 在 世界 上 66 个 大 城市 的 生活 花费 指数 (以 纽约 市 1996 年 
12 月 为 100) 按 自 小 至 大 的 次 序 排 列 如 下 (这 里 北京 的 指数 为 99) : 
66 75 78 80 81 8 82 83 83 83 83 
84 85 85 86 86 86 86 87 87 88 88 
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88 88 88 89 89 89 89 90 90 91 91 
91 91 92 93 93 96 96 96 97 99 100 
101 102 103 103 104 104 104 105 106 109 109 
110 110 110 111 113 115 116 117 118 155 192 
假设 这 个 样本 是 从 世界 许多 大 城市 中 随机 抽样 得 到 的 . 试用 符号 检验 分 析 ， 北京 
是 在 中 位 数 之 上 ， 还 是 在 中 位 数 之 下 . 
解 : 样本 的 中 位 数 (M) 作为 城市 生活 水 平 的 中 间 值 ， 因 此 需要 检验 : 


Ho: M > 99， 万 :AM < 99. 


输入 数据 ， 作 二 项 检验 . 
> X<-scan() 
1: 66 75 78 80 81 81 82 83 83 83 83 
12: 84 85 85 86 86 86 86 87 87 88 88 
23: 88 88 88 89 89 89 89 90 90 91 91 
34: 91 91 92 93 93 96 96 96 97 99 100 
45: 101 102 103 103 104 104 104 105 106 109 109 
56: 110 110 110 111 113 115 116 117 118 155 192 
67: 
Read 66 items 
> binom.test(sum(X>99), length(X), al="1") 
Exact binomial test 
data: sum(X > 99) and length(X) 
number of successes = 23, number of trials = 66, p-value = 0.009329 
alternative hypothesis: true probability of success is less than 0.5 
95 percent confidence interval: 
0.0000000 0.4563087 
sample estimates: 
probability of success 


0.3484848 


在 程序 中 ， sum(X>99) 表示 样本 中 大 于 99 的 个 数 . al 是 alternative 的 缩 
写 ，"1" 是 "less" 的 缩写 . 计算 出 的 PP 一 值 小 于 0.05, 拒绝 原 假设 , 也 就 是 说 ， 
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北京 的 生活 水 平 高 于 地 界 中 间 水 平 . 注意 ， 单 侧 区 间 佑 计 的 上 界 为 0.4563, 低 于 
0.5, 所 得 的 结论 还 是 拒绝 原 假设 . 


2. 用 成 对 样本 来 检验 两 个 总 体 间 是 否 存在 显著 差异 


符号 检验 法 也 可 用 于 以 成 对 随机 样本 观察 值 来 检验 两 个 总 体 之 间 是 否 存 在 
显著 差异 . 如 果 两 个 总 体 无 显 者 差异 ， 则 两 个 成 对 随机 样本 观察 值 正 、 负 差额 的 
个 数 应 大 体 相等 .假定 x; 一 y; > 0 用 正 号 表示 ， 2 一 Yi < 0 用 负 号 表示 ， 则 如 
果 两 个 总 体 无 显 显 著 差 异 ， 那 么 出 现 正 号 和 负 号 的 概率 各 占 1/2. 和 上 面 检验 样 
本 是 否 来 自 某 个 总 体 一 样 ， 可 用 二 项 分 布 B(n,1/2), 根据 一 定 的 显著 性 水 平和 正 
号 (或 负 号 ) 的 个 数 ， 作 出 接受 或 拒绝 两 个 总 体 无 显著 差异 的 判断 . 

例 5.19 用 两 种 不 同 的 饲料 养 猪 ， 其 增 重 情况 如 表 5.10 所 示 . 试 分 析 两 种 饲料 














表 5.10: 不 同 饲料 养 猪 的 增 重 情 次 
上 





饲料 X|125 30 28 23 27 35 30 28 32 29 30 30 31 16 
饲料 YY |19 32 21 19 25 31 31 26 30 25 28 31 25 25 


养 猫 有 无 显著 差异 . 

解 : 采用 成 对 符号 检验 ， 输 入 数据 ， 调 用 binom.test () 作 检 验 . 
> x<-scan() 
1: 25 30 28 23 27 35 30 28 32 29 30 30 31 16 
15: 
Read 14 items 
> y<-scan() 
1: 19 32 21 19 25 31 31 26 30 25 28 31 25 25 
15: 
Read 14 items 
> binom.test(sum(x<y), length(x)) 

Exact binomial test 

data: sum(x < y) and length(x) 


number of successes = 4, number of trials = 14, p-value = 0.1796 
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alternative hypothesis: true probability of success is not equal to 0.5 
95 percent confidence interval: 
0.08388932 0.58103526 
sample estimates: 
probability of success 
0.2857143 

sum(x < y) 表示 样本 X 小 于 样本 Y 的 个 数 . 计算 出 的 P 一 值 大 于 0.05, 无 法 
拒绝 原 假设 ,可 以 认为 两 种 饲料 养 猪 无 显著 差异 . 计算 出 的 区 间 佑 计 包 含 0.5, 也 
就 是 说 ， 可 以 认为 XX <Y 和 XX 二 Y 的 概率 各 占 1/2, 得 到 的 结论 也 不 无 法 拒绝 
原 假设 ， 两 种 饲料 养 猪 无 显著 差异 . 

在 人 们 的 日 常生 活 中 ,常常 遇 到 很 难 用 数值 确切 表示 的 问题 ， 而 符号 检验 法 
也 可 用 于 这 类 问题 的 研究 ,例如 我 们 要 了 解 消费 者 是 喜欢 咖啡 ， 还 是 喜欢 奶茶 就 
属于 这 一 类 的 问题 . 消费 者 很 难 用 5 表示 对 咖啡 的 爱好 ， 或 者 用 8 表示 对 奶茶 
的 爱好 ,一 般 只 能 表示 某 消费 者 对 咖啡 的 爱好 超过 奶茶 ， 或 者 对 奶茶 的 爱好 超过 
咖啡 ， 或 者 两 者 同样 爱好 . 因而 我 们 可 以 用 符号 检验 法 来 研究 这 一 类 的 现象 . 现 
举例 说 明 这 个 检验 方法 的 具体 应 用 . 
例 5.20 某 饮 料 店 为 了 解 顾客 对 人 饮料 的 爱好 情况 ， 进 一 步 改进 他 们 的 工作 ， 对 顾 
窜 总 欢 咖 啡 还 是 总 欢 奶茶 ， 或 者 两 者 同样 爱好 进行 了 调查 . 该 店 在 某 日 随机 地 机 
取 了 13 名 顾客 进行 了 调查 ， 顾 客 喜 欢 咖啡 超过 奶茶 用 正 号 表示 ， 喜 欢 奶 茶 超 过 
咖啡 用 负 号 表示 ， 两 者 同样 爱好 用 0 表示. 现 将 调查 的 结果 列 在 表 5.11 中 . 试 





表 5.11: 不 同 顾客 的 爱好 情况 


顾客 编号 |1 2 3 4 5 6 7 8 9 10 11 12 13 
喜欢 咖啡 | 1 1 1 1 0 1 1 1 1 1 
喜欢 奶茶 1 1 1 





分 析 顾 客 是 喜欢 咖啡 还 是 喜欢 奶茶 . 

解 : 根据 题 意 可 检验 如 下 假设 : 

Ho : 顾客 喜欢 咖啡 等 于 喜欢 奶茶 古 : 顾客 喜欢 咖啡 超过 奶茶 . 

以 上 资料 中 有 1 人 ( 即 6 号 顾客 ) 表示 对 咖啡 和 奶茶 有 同样 爱好 ， 用 0 表 
示 ， 因 而 在 样本 容量 中 不 加 计算 ， 所 以 实际 上 n = 12. 如 果 Uo 假设 为 真 ， 即 
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顾客 对 咖啡 和 奶茶 同样 爱好 ， 那 么 会 出 现 x 一 y < 0, 即 负 号 的 概率 为 1/2, 所 以 
出 现 负 号 的 个 数 服 从 二 项 分 布 ， B(12,1/2). 负 叶 个 数 愈 少 ， 说 明 顾 客 喜 欢 咖 啡 
超过 奶茶 的 人 数 愈 多 ， 负 号 个 数 少 到 一 定 程度 就 要 推翻 Ho 假设 ， 而 接受 Hl 假 
设 ， 即 顾客 喜欢 咖啡 超过 喜欢 奶茶 .所 以 本 例 属于 单 边 备 择 假设 检验 . 

用 R 软件 进行 计算 ， 显 著 性 水 平 取 a = 0.10， 
> binom.test(3,12,p=1/2, al="1l", conf.level = 0.90) 





Exact binomial test 
data: 3 and 12 
number of successes = 3, number of trials = 12, p-value = 0.073 
alternative hypothesis: true probability of success is less than 0.5 
90 percent confidence interval: 
0.0000000 0.4752663 
sample estimates: 
probability of success 
0.25 

P 一 值 = 0.073 < 0.10, 间 侧 区 间 佑 计 为 [0, 0.475], 因此 拒绝 原 假 设 ， 认 为 喜欢 咖 
啡 的 人 超过 喜欢 奶 条 的 人 . 

如 果 显 车 性 水 平定 在 a = 0.05 时 ， 则 不 能 拒绝 原 假 设 ， 只 能 认为 喜欢 咖啡 
和 奶茶 的 人 一 样 多 . 

一 般 来 说 ， 符 号 检验 比 参 数 统计 t 检验 法 的 效能 低 ， 特 别 是 正 、 负 符号 所 代 
表 的 差额 的 绝对 值 比较 大 时 ， 表 现 的 更 为 明显 . 

在 符号 检验 法 中 ， 只 计算 符号 的 个 数 ,而 不 考虑 每 个 符号 差 中 所 包含 的 绝对 
值 的 大 小 . 为 了 弥补 这 一 缺点 ， 所 以 在 非 参 数 统计 中 还 要 使 用 其 他 的 检验 方法 . 





5.3.5 ” 秩 统 计量 

前 面 介 绍 了 符号 检验 ， 下 面 介绍 另 一 中 检验 方法 一 秩 检 验 ， 在 介绍 秩 检验 
之 前 ， 先 介绍 与 秩 检 验 有 关 的 概念 一 秩 统计 量 (rank statistics). 

秩 统计 量 是 在 非 参数 检验 中 有 广泛 应 用 的 统计 量 , 它 的 一 个 重要 的 特性 是 分 
布 无 关 性 (distribution-freeness). 
定义 5.2 设 六 1, 义 2,…, Xn 为 一 组 样本 (不 必 取 自 同 一 总 体 ) 将 XX1, XX2,…… ,Xn 
从 小 到 大 排 成 一 列 ， 用 RR 记 为 Xi 在 上 述 排列 中 的 位 置 号 ， 守 = 1,2,…,n. 称 
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Ri, Ro,…, Rn 为 样本 XX1, Xo,……, Xi 产生 的 秩 统 计量 (rank statistics). 
例 5.21 有 下 列 一 组 样本 


Tl1 V2 3 Ta 5 


1.2 0.8 —3.1 2.0 1.2 


解 : 由 此 产生 的 秩 统 计量 忆 为 
Ri R» Rs Ra Rs 


注意 : 在 上 述 数据 中 zi = z5, 这 时 就 按 自 然 顺 序 将 zi 排 在 xs 前 面 . 
在 R 软件 中 ， 通 数 rank() 可 以 计算 秩 统 计量 ， 如 上 面 的 例子 ， 
> x<-c(1.2, 0.8, -3.1, 2.0，1.2) 
> rank(x) 
[1] 3.5 2.0 1.0 5.0 3.5 
这 里 并 不 象 人 为 排序 那样 ， 第 一 次 出 现 的 排 在 前 面 ,而 是 同等 处 理 ， 其 顺序 均 为 
3.5. 这 种 情况 在 计算 统计 量 时 ， 有 时 程序 会 给 出 警告 . 如 果 希 户 得 到 人 为 规定 的 
排列 次 序 ， 将 第 二 次 出 现 的 值 (zs5) 增加 一 个 很 小 的 值 . 如 
> x<-c(1.2, 0.8, -3.1, 2.0, 1.2+1e-5) 
> rank(x) 
[1] 32154 
这 与 人 工 计 算 的 结果 相同 . 
显然 , 若 样 本 Xi1, X2,:…, X 是 取 自 连续 分 布 总 体 的 独立 同 分 布 样本 , 则 统计 
量 ,Ro,……, RR 的 分 布 是 对 称 等 概率 的 , 即 对 1,2,… ,nn 的 任 一 排列 21,i2,……，, in 
有 1 
P{Ri= ,R= i, ,R= in} = EE (5.21) 


这 时 ， PR R2,…, Rn 的 分 布 与 总 体 分 布 无 关 . 
5.3.6 ” 秩 相 关 检 验 


秩 相关 检验 是 秩 检 验 的 一 个 重要 应 用 . 在 第 三 章 ， 我 们 介绍 了 Pearson 相关 
检验 ， 它 实际 应 用 在 正 态 分 布 总 体 的 数据 ,这 里 介绍 的 秩 相关 检验 并 不 要 求 所 检 
验 的 数据 来 自 正 态 分 布 的 总 体 . 
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1. Spearman 秩 相 关 检 验 

设 (Xi, 7), (X2, 2),……, (Xn, Yn) 为 取 自 某 个 二 元 总 体 的 独立 样本 ， 要 检验 
变量 X 与 变量 Y 是 否 相 关 . 通常 以 “X 与 》 相互 独立 (不 相关 )” 为 原 假设 ， 
“X 与 了 相关 ”为 备 择 假设 . 

设 加 ,72 7r 为 由 六 1, 六 2,…, Xn 产生 的 秩 统 计量 ， 有 R2,…, RR 为 由 
站 ,2,……, Yn 产生 的 秩 统 计量 ， 则 有 

















1 nn 十 1 =。 ,省 
A 2 三 二 一 及 = 一 局 
Re 2 是 





定义 5.3 称 





oe 了 
入 二 D3 ( 熏 ) 
为 Spearmamn (斯 皮尔 曼 ) 秩 相 关系 数 . 

当 X 与 了 相互 独立 时 ， (Dra rn) 与 (Re, Ra 已) 相互 独立 时 ， 
已 (rs) = 0. 当头 与 Y》 正 相关 时 ，7s 倾向 于 取 正 值 ; 当 X 与 Y 负 相 关 时 ， rs 
倾 回 于 取 负 值 . 这 样 就 可 以 得 用 rs 的 分 布 来 检验 X 与 了 是否 独 立 . 

可 以 证 明 ， 当 n 较 大 时 ， Vn 一 17s 的 近似 分 布 为 N(0,1). 由 此 可 以 构造 
拒绝 域 和 计算 相应 的 已- 值 ， 当 PP 一 值 小 于 某 一 显著 性 水 平 a 时 ， 则 拒绝 原 假 
设 . 我 们 可 以 根据 问题 构造 单 边 检验 或 双边 检验 . 

R 软件 中 的 检验 函数 cor.test() 可 以 进行 Spearman 秩 相关 检验 ， 其 使 用 
方法 为 


cor.test(x, y, 








alternative = c('"two.sided", "less", "greater'"), 
method = "spearman", conf.level = 0.95, ...) 
例 5.22 一 项 有 六 个 人 参加 表演 的 竞赛 ， 有 两 人 进行 评定 , 评定 结果 用 表 5.12 所 
示 ， 试用 Spearman 秩 相 关 检 验方 法 检验 这 两 个 评定 员 对 等 级 评定 有 无 相关 关 
解 : 输入 数据 ， 作 检验 
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表 5.12: 两 位 评判 者 的 评定 成 绩 





参加 者 编号 1 3 4 5 6 
甲 的 打分 (X) 1 2 3 4 5 6 
乙 的 打分 (Y) 6 5 4 3 2 1 


> x<-c(1,2,3,4,5,6); y<-c(6,5,4,3,2,1) 
> cor.test(x, y, method = "spearman'") 
Spearman’s rank correlation rho 
data: x and y 
S = 70, p-value = 0.002778 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 
三 | 
由 于 计算 出 的 P 一 值 小 于 0.05, 因此 拒绝 原 假 设 ， 认 为 变量 X 与 》 相关 . 


事实 上 ， 由 于 计算 出 的 7 = 一 1, 表示 这 两 个 量 是 完全 负 相 关 ， 即 两 人 的 结论 有 
关系 ， 但 完全 相反 . 





2. Kendall 相关 检验 
这 里 从 另 一 个 观点 来 看 相关 问题 ,同样 考虑 原 假设 Ho : 变量 X 与 Y 不 相 
关 ， 和 三 个 备 择 假设 
Hi : 正 或 负 相 关 ” (或者) ” 正 相 关 (或 者 )” 负 相关 
引进 协同 的 概念 ， 如 果 乘 积 (XX; 一 Xi;)(Y; 一 六) > 0, 则 称 对 子 (Xi, 1) 及 


(X;, 六 ) 是 协同 的 (concordant) 或 者 说 ， 它 们 有 同样 的 倾向 . 反之 ， 如 果 乘 积 
(Xi 一 和 Xi)( 太 一 玫 ) < 0, 则 称 该 对 子 是 不 协同 的 (disconcordant) ， 令 


1， ”如果 (Xj; 一 Xi)(Yi 一 Yi)>0 
V(X Xj 了 Y) 三 4 0， 如 果 (Xi Xi)(Y Y) = 0, (5.22) 
et 
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定义 Kendall ( 肯 达 尔 ) 7 相关 系数 


KkK Na— Ne 











个 二 WO XY (5.23) 
1<i<j<n 8 @ 
其 中 ne 是 协同 对 子 的 数目 ， na 是 不 协同 对 子 的 数目 . 显然， 
K=) VV=n -n=2n— 0?. (5.24) 


上 面 定 义 的 个 为 概率 差 
T= P{(X;— Xi)(Y;— YY) >0}— P{(X;— Xi)(Y; — ¥) < 0} 


的 一 个 估计 .容易 看 出 ， 一 1 < 个 < 1. 事实 上 ， 当 所 有 对 子 都 是 协同 的 ， 则 
KK = C2, 此 时 ， 个 一 1. 当 所 有 对 子 都 是 不 协同 的 ， 则 天 = 一 C2, 此 时 ， 休 一 一 1 

设 mi ra，,7m 为 由 X1, 人 2 人 mn 产生 的 秩 统 计量 ， Ri, Reo, , Rn 为 由 

二 > sign(7; — 7;): sign(Ri — R;). (5.25) 
1<i<j<n 

结合 式 (5.25) 和 式 (5.23), 可 以 计算 出 估计 值 7, 这 样 就 可 以 利用 人? 值 作 检 
验 . 当 了 接近 于 0 时 ， 表 示 两 变量 独立 ; 当 7 大 于 某 一 值 时 ， 表 示 两 变量 相关 
( 正 数 表示 正 相关 ， 负 数 表 示 负 相关 ). 

在 R 软件 中 ，Kendall 相关 检验 仍 有 郴 数 cor .test() 计算 ， 其 计算 方法 与 
Spearman 秩 相 关 检 验 相 同 ， 只 需 将 参数 method 改 成 method = "kendall'. 
例 5.23 某 幼 儿 园 对 9 对 双胞胎 的 智力 进行 检验 ， 并 按 百 分 制 打分 . 现 将 资料 如 
表 5.13 所 示 . 试用 Kendall 相关 检验 方法 检验 双胞胎 的 智力 是 否 相 关 . 


表 5.13: 9 对 双胞胎 的 得 分 情况 
双胞胎 对 的 编号 2 3 4 5 6 7 8 9 
先 出 生 的 儿童 (X) 


后 出 生 的 儿童 (Y) 





解 : 输入 数据 ， 作 检验 
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> X<-c(86, 77, 68, 91, 70, 71, 85, 87, 63) 
> Y<-c(88, 76, 64, 96, 65, 80, 81, 72,，60) 
> cor.test(X, Y, method = "kendall") 
Kendall’s rank correlation tau 

data: X and Y 
T= 31, p-value = 0.005886 
alternative hypothesis: true tau is not equal to 0 
sample estimates: 

tau 
0.7222222 
PP 一 值 小 于 0.05, 拒绝 原 假 设 ， 认 为 双胞胎 的 智力 是 相关 的 ， 而 且 是 正 相 关 

的 . 


5.3.7 ” Wilcoxon 秩 检 验 


1. 对 来 自 一 个 总 体 样本 的 检验 


符号 检验 利用 了 观测 值 和 原 假设 的 中 心 位 置 之 差 的 符号 来 进行 检验 ， 但 是 
已 并 没有 利用 这 些 差 的 大 小 (体现 于 差 的 绝对 值 的 大 小 ) 所 包含 的 信息 ， 不 同 的 
符号 代表 了 中 心 位 置 的 哪 一 边 ， 而 差 的 绝对 值 的 秩 的 大 小 代表 距 中 心 位 置 的 远 
近 ， 如 果 将 两 者 结合 起 来 ， 自 然 比 仅仅 利用 符号 更 有 效 . 这 也 是 下 面 要 介绍 的 
Wilcoxon( 威 尔 科 克 进 ) 符号 秩 检验 (Wilcoxon signed-rank test) 的 宗旨 . 

为 了 弥补 符号 检验 法 之 不 足 , 在 这 里 将 介绍 一 种 在 一 定 程 度 上 考虑 到 样本 观 
察 值 与 总 体 中 位 数 之 间 的 差额 ， 即 |z; 一 Wo|( 其 中 ;= 1,2,…,n) 的 大 小 的 检验 
方法 . 在 这 里 假定 : (1) 总 体 分 布 是 连续 的 ， (2) 总 体 对 其 中 位 数 是 对 称 的 . 这 
样 ， 将 以 上 lz; 一 Mo| 得 到 的 差额 ， 按 递增 次 序 排 列 ， 并 报 据 差额 的 次 序 给 出 相 
应 的 秩 次 RR, 如 差额 绝对 值 最 小 者 给 以 秩 次 1, 次 小 者 给 以 秩 次 2, ……，…… 最 大 
值 给 以 秩 次 n. 再 按 x; 一 Mo > 0 为 正 秩 次 ， zi 一 Mo < 0 为 负 秩 次 ， 然后 按照 
正 秩 次 和 进行 检验 ， 这 就 是 秩序 和 检验 . 这 种 方法 首先 由 Wilcoxon 提出 的 ， 所 
以 称 为 Wilcoxon 符号 秩 检 验 . 

Wilcoxon 检验 不 仅 考虑 到 每 个 观察 值 比 总 体 中 位 数 Mo 大 还 是 小 ， 而 且 在 
一 定 程 度 上 也 考虑 了 大 多 少 ， 小 多 少 . 在 进行 检验 时 ， 如 果 观 察 值 与 总 体 中 位 数 
的 差额 的 绝对 值 相 等 时 ， 就 要 用 平均 秩 次 来 代 奉 . 例如 ，|z 一 Mol = |zx; 一 Mo| = 
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[zx 一 Mol, 首先 ， 给 以 相应 的 秩 次 为 4 、5 、 6, 其 平均 值 为 5 (R 软件 以 平均 值 
定义 相同 值 的 秩 次 ， 三 个 数据 的 秩 次 均 是 5). 此 外 ， 如 果 zi 一 Mo = 0, 就 将 zx; 
从 观察 数据 中 去 掉 . 


如 果 原 观察 值 的 数目 为 n', 减 去 差额 为 0 的 观察 数据 后 ， 其 样本 数 为 n. 用 
R(T) 表示 正 秩 次 ， W 表示 正 秩 次 的 和 ， 则 Wilcoxon 统计 量 为 


W = >》 Re. (5.26) 
i=1 


因为 n 个 整数 1,2,.…,n 的 总 和 用 Ca 而 正 秩 次 总 和 可 以 在 区 
a (0 于) 内 变动 如 果 观 察 信 来 自 中 位 数 为 M 的 菜 个 总 体 的 假设 为 
真 ， 那 么 Wilcoxon 检验 统计 量 的 取 值 将 是 秩 次 和 的 平均 数 ， 即 -2 
i 
这 样 ， 在 一 定 的 显著 性 水 平 ， 便 可 进行 检验 了 . 

及 软件 中 的 wilcox.tets() 函数 可 以 作 Wilcoxon 符号 秩 检 验 ， 其 基本 格式 





为 : 
wilcox.test(x, y = NULL, 
alternative = c('"two.sided", "less", "greater'"), 
mu = 0, paired = FALSE, exact = NULL, correct = TRUE， 
conf .int = FALSE, conf.level = 0.95, ...) 


其 中 x,y 是 观察 数据 构成 的 数据 向 量 . alternative 是 备 择 假设 ， 有 单 侧 检 验 
和 双 侧 检验 . mu 竺 检 参 数 ， 如 中 位 数 jMo. paired 是 逻辑 变量 ， 说 明 变 量 x，y 
是 否 为 成 对 数据 ， exact 是 逻辑 变量 ， 说 明 是 否 精确 计算 PP 一 值 ， 当 样本 量 较 
小 时 ， 此 参数 起 作用 ， 当 样本 量 较 大 时 ， 软 件 采 用 正 态 分 布 近 似 计算 P 一 值 . 
correct 是 逻辑 变量 ,说明 是 否 对 PP 一 值 的 计算 采用 连续 性 修正 . conf .int 是 
逻辑 变量 ， 说 明 是 否 给 出 相应 的 置信 区 间 . 
例 5.24 假定 某 电 池 厂 宣称 该 厂 生产 的 某 种 型 号 电池 寿命 的 中 位 数 为 140 安培 
小 时 . 为 了 检验 该 厂 生产 的 电池 有 是 否 符合 其 规定 的 标 淮 ， 现 从 新 近 生 产 的 一 批 电 
池 中 抽取 20 个 随机 样本 ， 并 对 这 20 个 电池 的 寿命 进行 了 测试 ， 其 结果 如 下 (学 
位 ， 安 培 小 时 ) : 

137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
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141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
试用 Wilcoron 符号 秩 检 验 分 析 该 厂 生 产 的 电池 是 否 符 合 其 标准 . 
解 : 根据 题 意 作 如 下 假设 : 

Ho : 电池 中 位 数 M > 140 安培 小 时 ; 

万 : 电池 中 位 数 M < 140 安培 小 时 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-scan() 
1: 137.0 140.0 138.3 139.0 144.3 139.1 141.7 137.3 133.5 138.2 
11: 141.1 139.2 136.5 136.5 135.6 138.0 140.9 140.6 136.3 134.1 
21 : 
Read 20 items 
> wilcox.test(X, mu=140, alternative='"less', 

exact=FALSE, correct=FALSE, conf.int=TRUE) 
Wilcoxon signed rank test 
data: XX 
V = 34, p-value = 0.007034 
alternative hypothesis: true mu is less than 140 
95 percent confidence interval: 
-Inf 139.2000 

sample estimates: 
(pseudo)median 


138.2000 


这 里 V = 34 是 Wilcoxon 统计 量 ， P- 值 0.007034 < 0.05, 拒绝 原 假设 ， 即 中 
位 达 不 到 140 安培 小 时 .从 相应 的 区 间 估 计 也 能 得 到 相应 的 结论 . 

上 面 介 绍 了 用 Wilcoxon 符号 秩 检验 方法 检验 一 个 样本 是 否 来 自 某 个 总 体 的 
内 容 .， 同样 ， 这 个 方法 也 可 用 于 成 对 样本 的 检验 ， 从 而 说 明 两 个 总 体 是 否 存在 显 
著 差 异 . 
例 5.25 为 了 检验 一 种 新 的 复合 肥 和 原来 使 用 的 肥料 相 比 是 否 显著 地 提高 了 小 麦 
的 产量 ， 在 一 个 农场 中 选择 了 10 块 田地 ， 每 块 等 分 为 两 部 分 ， 其 中 任 指 定 一 部 
分 使 用 新 的 复合 肥料 ， 另 一 部 分 使 用 原 肥料 . 小 麦 成 熟 后 称 得 各 部 分 小 麦 产量 如 
表 5.14 所 示 . 试用 Wilcoron 符号 检验 法 检验 新 复合 肥 是 否 会 显著 提高 小 麦 的 
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表 5.14: 使 用 不 同 肥 料 情 况 下 小 麦 的 产量 (单位 : 千克 ) 





产量 ， 并 与 符号 检验 作 比 较 (a = 0.05). 
解 : 根据 题 意 作 如 下 假设 ; 
Ho : 新 复合 肥 的 产量 与 原 肥料 的 产量 相同 ， 
Hi : 新 复合 肥 的 产量 高 于 原 肥料 的 产量 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-c(459，367，303，392，310，342，421，446，430，412) 
> y<-c(414，306，321，443，281，301，353，391，405，390) 








> wilcox.test(x, y, alternative = "greater", paired = TRUE) 
Wilcoxon signed rank test 

data: x and y 

V = 47, p-value = 0.02441 


alternative hypothesis: true mu is greater than 0 
P- 值 0.02441 < 0.05, 拒绝 原 假设 ， 即 新 复合 肥 能 够 显著 提高 小 麦 的 产量 . 
用 下 述 命令 





> wilcox.test(x-y, alternative = "greater'") 
具有 相同 的 效果 . 
如 符号 检验 计算 
> binom.test(sum(x>y), length(x), alternative = "greater'") 


Exact binomial test 
data: sum(x > y) and length(x) 
number of successes = 8, number of trials = 10, p-value = 0.05469 
alternative hypothesis: true probability of success is greater than 0.5 
95 percent confidence interval: 
0.4930987 1.0000000 


sample estimates: 
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probability of success 
0.8 

P 一 值 0.05469 > 0.05, 无 法 拒绝 原 假设 . 此 结果 表明 , 在 a = 0.05 的 水 平 下 , 就 
所 给 数据 而 言 ， 符 号 检验 还 不 足以 区 分 两 种 肥料 对 提高 小 麦 的 产量 产生 差异 . 

比较 两 个 计算 结果 ， 可 以 发 现 ， Wilcoxon 符号 检验 比 符 号 检验 在 探测 差异 
性 方面 更 有 效 . 

2. 非 成 对 样本 的 秩 次 和 检验 

假定 两 个 非 成 对 样本 的 观察 值 为 Xi X2,…, Xn， 和 7, 2 ,Ys, 其 样本 
容量 分 别 为 nt 和 n2， 现 要 检验 两 个 随机 样本 来 自 两 个 总 体 的 中 位 数 是 否 相等 
(如 果 中 位 数 相等 ， 则 认为 两 个 总 体 无 差异 ). 

将 样本 的 观察 值 排 在 一 起 , Xi ,六 2,… ,XX , 站， ,Yn 仍 设 71, 72 ,Tn 
为 由 XGXoy 六 W 产生 的 秩 贫 计量 人)Rov*y 了 iw 为 由 Ys 了 下 Ya 产生 
的 秩 统计 量 ， 则 Wilcoxon-Mann-Whitney 统计 量 定义 为 





nz(n2 二 1 


类 似 单 一 总 体 的 Wilcoxon 符号 检验 一 样 ， 可 以 通过 统计 量 UV 进行 检验 ,该 检验 
称 为 Wilcoxon 秩 和 检验 . 

R 软件 中 ， 仍 然 是 用 wilcox.test() 完成 Wilcoxon 秩 和 检验 . 
例 5.26 今 测 得 10 名 非 铝 作业 工人 和 7 名 铅 作 业 工 人 的 血 铅 值 ， 如 表 5.15 所 
示 . 试用 Wilcoron 秩 和 检验 分 析 两 组 工人 血 铝 值 有 无 差异 . 


表 5.15: 两 组 工人 的 血 铅 值 (单位 ， 10 一 mmol/DL) 
非 铝 作业 组 | 24 26 29 34 43 58 63 72 87 101 


馈 作 业 组 82 87 97 121 164 208 213 


解 : 根据 题 意 作 如 下 假设 : 

Ho : 两 组 工人 血 铅 无 差异 ， ”Hi : 铅 作业 组 血 铅 高 于 非 铅 作业 组 . 
输入 数据 ， 调 用 wilcox.test() 也 数 ， 
> X<-c(24，26，29，34，43，58，63，72，87，101) 
> y<-c(82，87，97，121，164，208，213) 
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#### 不 采用 连续 修正 

> wilcox.test(x,y,alternative="less" ,exact=FALSE,correct=FALSE) 
Wilcoxon rank sum test 

data: x and y 

W = 4.5, p-value = 0.001449 

alternative hypothesis: true mu is less than 0 

#### 采用 连续 修正 

> wilcox.test(x, y, alternative="less", exact=FALSE) 
Wilcoxon rank sum test with continuity correction 

data: x and y 

W = 4.5, p-value = 0.001698 


alternative hypothesis: true mu is less than 0 

W = 4.5 是 Wilcoxon-Mann-Whitney 统计 量 . 在 上 述 计 算 中 ， 无 论 采 用 连 
续 人 和 修正， 要 还 是 不 采用 连续 修正 ， 其 已- 值 均 小 于 0.05, 因此 拒绝 原 假设 ， 即 铅 
作业 组 工人 血 铅 值 高 于 非 铅 作业 组 的 工人 . 
例 5.27 为 了 了 解 新 的 数学 教学 方法 的 效果 是 否 比 原来 方法 的 效果 有 了 所 提高 ， 从 
水 平 相当 的 10 名 学 生 中 随机 地 各 选 5 名 接受 新 方法 和 原 方法 的 教学 试验 , 充分 
长 一 段 时 间 后 ， 由 专家 通过 各 种 方式 (如 考试 提问 等 ) 对 10 名 学 生 的 数学 能 力 
予以 综合 评估 (为 公证 起 见 ， 假定 专家 对 各 个 学 生 属 于 哪 一 组 并 不 知道 ),， 并 按 其 
数学 能 力 由 弱 到 强 排序 ， 结 果 如 表 516 所 示 .， 对 a = 0.05, 检验 新 方法 是 否 比 


表 5.16: 学 生 数 学 能 力 排序 结果 (1) 





原 方法 显著 地 提高 了 教学 效果 . 车 排序 结果 如 表 5.17 所 示 ， 情况 又 如 何 ? 


表 5.17: 学 生 数 学 能 力 排序 结果 (2) 
4 6 了 9 10 
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解 : 因为 Wilcoxon 秩 和 检验 本 质 只 需 排 出 样本 的 秩 次 ， 而 且 题 目 中 的 数据 
本 喘 就 是 一 个 排序 ， 因 此 可 直接 使 用 . 
> x<-c(3, 5, 7, 9, 10); y<-c(1, 2, 4, 6, 8) 
> wilcox.test(x, y, alternative="greater'") 
Wilcoxon rank sum test 
data: x and y 
W = 19, p-value = 0.1111 
alternative hypothesis: true mu is greater than 0 
P- 值 =0.1111 > 0.05, 无 法 拒绝 原 假 设 ， 即 认为 新 的 教学 效果 并 不 显著 优 于 原 
方法 . 
对 于 第 二 种 情况 ， 
> X<-c(4, 6, 7, 9, 10); Y<-c(1, 2, 3, 5, 8) 
> wilcox.test(X, Y, alternative="greater'") 
Wilcoxon rank sum test 
data: X and Y 
W = 21, p-value = 0.04762 


alternative hypothesis: true mu is greater than 0 
PP 一 值 = 0.04762 < 0.05, 拒绝 原 假设 ， 即 认为 新 的 教学 效果 显著 优 于 原 方法 . 


例 5.28 茶 医院 用 茶 种 药物 治疗 两 型 慢性 支气管 炎 患 者 共 216 例 , 疗效 由 表 5.18 
所 示 . 试 分 析 该 药物 对 两 型 慢性 支气管 炎 的 治疗 是 否 相 同 . 


表 5.18: 某 种 药物 治疗 两 型 慢性 支气管 炎 疗效 结果 


疗效 控制 显效 3 无 效 
单纯 型 62 41 14 11 
喘息 型 20 37 16 15 





解 : 我 们 想象 各 病人 的 疗效 用 4 个 不 同 的 值 表示 (1 表示 最 好 ，4 表示 最 差 )， 
这 样 就 可 以 为 这 216 名 病人 排序 ， 因 此 ， 可 用 Wilcoxon 秩 和 检验 来 分 析 问 题 . 
> x<-rep(1:4, c(62, 41, 14,11)); y<-rep(1:4，c(20，37，16，15)) 
> wilcox.test (x, y, exact=FALSE) 
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Wilcoxon rank sum test with continuity correction 
data: x and y 
W = 3994, p-value = 0.0001242 


alternative hypothesis: true mu is not equal to 0 


PP 值 = 0.0001242 < 0.05, 拒绝 原 假设 ， 即 认为 该 药物 对 两 型 慢性 支气管 炎 
的 治疗 是 不 相同 的 ， 因 为 数据 有 结 点 存在 ， 故 无 法 精确 计算 已 - 值 ， 其 参数 为 
exact=FALSE. 





本 节 介 绍 了 一 些 重要 的 非 参 数 检验 方法 ， R 软件 还 提供 了 男 外 一 些 非 参 数 
检验 方法 ， 这 里 就 不 一 一 列举 了 . 因为 掌握 了 已 有 的 方法 ， 再 学 习 其 他 方法 就 不 
困难 了 ， 使 用 时 可 通过 在 线 帮助 了 解 其 基本 的 使 用 方法 . 
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5.1 正常 男子 血小板 计数 均值 为 225 x 109/ 研 , 今 测 得 20 名 男性 油漆 作业 工人 
的 血小板 计数 值 (单位 :， 103/ 工 ) 

220 188 162 230 145 160 238 188 247 113 

126 245 164 231 256 183 190 158 224 175 
问 油漆 工人 的 血小板 计数 与 正常 成 年 男子 有 无 差异 ? 
5.2 已 知 某 种 灯泡 寿命 服从 正 态 分 布 ， 在 某 星期 所 生产 的 该 灯泡 中 随机 柏 取 10 
只 ， 测 得 其 寿命 (单位 :小 时 ) 为 

1067 919 1196 785 1126 936 918 1156 920 948 
求 这 个 星期 生产 出 的 灯泡 能 使 用 1000 小 时 以 上 的 概率 ， 
5.3 为 研究 某 铁 剂 治疗 和 饮食 治疗 营养 性 缺 铁 性 和 贫血 的 效果 ,将 16 名 患者 按 年 
龄 、 体 重 、 病 程 和 病情 相近 的 原则 配 成 8 对 ， 分 别 使 用 饮食 疗法 和 补充 铁 剂 治疗 
的 方法 ， 3 个 月 后 测 得 两 种 患者 血红 蛋白 如 表 5519 所 示 ， 问 两 种 方法 治疗 后 的 


表 5.19: 铁 剂 和 饮食 两 种 方法 治疗 后 患者 血红 和 蛋白 值 (9/7) 
铁 剂 治疗 组 | 113 120 138 120 100 118 138 123 


饮食 治疗 组 | 138 116 125 136 110 132 130 110 
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患者 血红 蛋白 有 无 差异 ? 
5.4 为 研究 国产 四 类 新 药 阿 卡 波 糖 胶 早 效果， 某 医 院 用 40 名 厅 型 糖尿 病 病 人 
进行 同期 随机 对 照 实验 . 试验 者 将 这 些 病 人 随机 等 分 到 试验 组 ( 阿 卡 波 糖 胶 癌 组 /) 
和 对 照 组 ( 拜 唐 革 胶 吉 组 ), 分 别 测 得 试验 开始 前 和 8 周 后 空腹 血糖 ,前 得 空腹 血 
糖 下 降 值 ， 如 表 5.20 所 示 ,， 能 否认 为 国产 四 类 新 药 阿 卡 波 糖 胶 蜂 与 拜 唐 革 胶 蜂 
表 5.20: 试验 组 与 对 照 组 空腹 腔 血 糖 下 降 值 (mmol/DLT) 

试验 组 |-0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 
(n1 一 20) 
对 照 组 


(nz = 20) 


2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40 
3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 
6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00 





对 空腹 血糖 的 降 糖 效果 不 同 ? 

(1) 检验 试验 组 和 对 上 照 组 的 的 数据 是 否 来 自 正 态 分 布 ， 采 用 正 态 性 W 检验 
方法 ( 见 第 三 章 ) 、 Kolmogorov-Smirnov 检验 方法 和 Pearson 拟 合 优 度 Xx? 检 
验 ; 

(2) 用 t 一 检验 两 组 数据 均值 是 否 有 差异 ， 分 别 用 方差 相同 模型 、 方 差 不 同 
模型 和 成 对 三 检验 模型 ; 

(3) 检验 试验 组 与 对 照 组 的 方差 是 否 相 同 . 

5.5 为 研究 某 种 新 药 对 抗 凝血 酶 活力 的 影响 ， 随 机 安排 新 药 组 病人 12 例 ， 对 照 
组 病人 10 例 ， 分 别 测定 其 抗 凝血 酶 活力 (单位 ， mm3), 其 结果 如 下 : 

新 药 组 : 126 125 136 128 123 138 142 116 110 108 115 140 

对 照 组 :162 172 1I7 170 175 152 157 159 160 162 
试 分 析 新 药 组 和 对 照 组 病人 的 抗 凝血 酶 活力 有 无 差别 (Qa = 0.05). 

(1) 检验 两 组 数据 是 否 服从 正 态 分 布 ; 

(2) 检验 两 组 样本 方差 是 否 相 同 ; 

(3) 选择 最 合适 的 检验 方法 检验 新 药 组 和 对 照 组 病人 的 抗 凝血 酶 活力 有 无 差 
别 . 

5.6 一 项 调查 显示 某 城 市 老年 人 口 比 重 为 14.7%， 该 市 老年 研究 协会 为 了 检验 
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该 项 调查 是 否 可靠 ， 随 机 柚 选 了 400 名 居民 ， 发 现 其 中 有 57 人 是 老年 人 ， 问 调 
查 结果 是 否 支 持 该 市 老年 人 口 比重 为 14.7 卿 的 看 法 (a = 0.05). 

5.7 作 性 别 控 制 试验 ， 经 某 种 处 理 后 ， 共 是 锥 鸡 328 只 ， 其 中 公 锥 150 只 ， 母 
锥 178 只 ,试问 这 种 处 理 能 否 增 加 母 锥 的 比例 ? (性 别 比 应 为 1 : 1). 

5.8 Mendel 用 豌豆 的 两 对 相对 性 状 进 行 杂 交 实 验 ， 黄色 圆 滑 种 子 与 绿色 皱 缩 种 
的 豌豆 杂交 后 ， 第 二 代 根 据 自 由 组 合 规律 ， 理 论 分 离 比 为 


9 3 3 1 


黄 贺 : 黄 皱 : 绿 圆 : 绿 镁 :16:16: 了 6 


实际 实验 值 为 黄 贺 15 粒 ， 黄 101 粒 ， 绿 圆 108 粒 ， 绿 皱 32 粒 ， 共 556 粒 ， 
问 此 结果 是 否 符 合 自 由 组 合 规 律 ? 

5.9 观察 每 分 钟 进入 某 商 店 的 人 数 入 , 任 取 200 分 钟 ， 所 得 数据 如 下 

0 1 2 3 3 5 

92 68 28 11 1 0 


顾客 人 数 
频数 
试 分 析 ， 能 否认 为 每 分 钟 顾客 数 X 服从 Poisson 分 布 (a = 0.1). 
5.10 观察 得 两 样本 值 如 下 
| I ,0 9 i 





对 
试 分 析 ， 两 样本 是 否 来 自 同 一 总 体 (a = 0.05). 


5.11 为 研究 分 娆 过程 中 使 用 胎儿 电子 监测 仪 对 剖腹 产 率 有 无 影响 ， 对 5824 例 
分 娩 的 经 产妇 进行 回顾 性 调查 ， 结 果 如 表 5.21 所 示 ， 试 进行 分 析 . 


4.38 4.25 059 3.28 7.21 06.55 





表 5.21: 5824 例 经 产妇 回顾 性 调查 结果 


胎儿 电子 监测 仪 | 
剖腹 产 os 合计 
是 587 
否 5237 
合计 5824 
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5.12 在 高 中 一 年 级 男生 中 抽取 300 名 考察 其 两 个 属性 : BB 是 1500 米 长 跑 ， 
C 是 每 天 平均 锻炼 时 间 ， 得 到 4 x 3 列 联 表 ， 如 表 22 所 示 .， 试 对 a = 0.05， 


表 5.22: 300 名 高 中 学 生体 育 锻炼 的 考察 结果 


1500 米 锻炼 时 间 


长 跑 记 录 2 小 时 以 上 1 一 2 小 时 1 小 时 以 下 
5”01’ ~ 5730/ 
5”31’ ~ 6/00/ 
6”01’ ~ 6/30/ 
6”31’ ~ 7”00’ 


合计 





检验 与 CO 是 否 独立 . 
5.13 为 比较 两 种 工艺 对 产品 的 质量 是 否 有 影响 ， 对 其 产品 进行 抽样 检查 ， 其 结 
果 如 表 5.23 所 示 .， 试 进行 分 析 . 


表 5.23: 两 种 工艺 下 产品 质量 的 抽查 结果 





合计 
工艺 一 7 
a 10 
合计 17 


5.14 应 用 核 素 法 和 对 比 法 检测 147 例 冠 心病 患者 心脏 收缩 运动 的 符合 情况 ,其 
结果 如 表 5.24 所 示 . 试 分 析 这 两 种 方法 测定 结果 是 否 相 同 . 
5.15 在 某 养 鱼 塘 中 ， 根 据 过 去 经 验 ， 鱼 的 长 度 的 中 位 数 为 14.6cm, 现 对 鱼 塘 中 
鱼 的 长 度 进行 一 次 估 测 ， 随 机 地 从 鱼 塘 中 取出 10 条 鱼 长 度 如 下 : 

13.32 13.06 14.02 11.86 13.58 13.77 13.51 14.42 14.44 15.43 
将 它们 作为 一 个 样本 进行 检验 试 分 析 ， 该 鱼 娘 中 鱼 的 长 度 是 在 中 位 数 之 上 ,还 
是 在 中 位 数 之 下 . 

(1) 用 符号 检验 分 析 ; 
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147 





(2) 用 Wilcoron 符号 秩 检 验 . 


5.16 用 两 种 不 同 的 测定 方法 ， 测 定 同一 种 中 草药 的 有 效 成 分 ， 共 重复 20 次 ， 
得 到 实验 结果 如 表 5.25 所 示 . 


表 5.25: 两 种 不 同 的 测定 方法 得 到 的 结果 
48.0 330. 975 M80. 25 40.0..-42.0. 7.36.0. "1.37220 


36.0 27.3 14.2 32.1 52.0 38.0 17.3 20.0 21.0 46.1 
37.0 41.0 23.4 17.0 31.5 40.0 31.0 36.0 5.7 11.5 
21.0 6.1 26.5 21.3 44.5 28.0 22.6 20.0 11.0 22.3 





(1) 试用 符号 检验 法 检验 两 测定 有 无 显著 差异 ， 
(2) 试用 Wilcoron 符号 秩 检验 法 检验 两 测定 有 无 显著 差异 ; 
(3) 试用 Wilcoron 秩 和 检验 法 检验 两 测定 有 无 显著 差异 ; 


(4) 对 数据 作 正 态 性 和 方差 齐 性 检验 ， 该 数据 是 否 作 t 一 检验 ， 如 果 能 ， 了 
作 t 一 检验 ; 


(5) 分 析 各 种 的 检验 方法 ， 试 说 明 哪 种 检验 法 效果 最 好 . 


5.17 调查 某 大 学 学 生 每 周 学 习 时 间 与 得 分 的 平均 等 级 之 间 的 关系 ， 现 机 查 10 
个 学 生 的 资料 如 表 下 : 
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其 中 等 级 10 表示 最 好 ，1 表示 最 差 . 试用 秩 相关 检验 (Spearman 检验 和 Kendall 
检验 ) 分 析 学 习 等 级 与 学 习 成 绩 有 无 关系 . 

5.18 为 比较 一 种 新 疗法 对 某 种 疾病 的 治疗 效果 , 将 40 名 患者 随机 地 分 为 两 组 ， 

每 组 20 人 ,一 组 采用 新 疗法 ， 另 一 组 用 原 标准 疗法 . 经 过 一 段 时 间 的 治疗 后 ,对 
每 个 患者 的 疗效 作 仔细 的 评估 ， 并 划分 为 差 、 较 差 、 一 般 、 较 好 和 好 五 个 等 级 . 

两 组 中 处 于 不 同等 级 的 患者 人 数 如 表 5.26 所 示 .， 试 分 析 ， 由 此 结果 能 否认 为 新 


表 5.26: 不 同方 法 治疗 后 的 结果 





等 级 差 较 差 一 般 较 好 好 
新 疗法 组 0 1 9 7 3 
原 疗 法 组 2 2 11 4 1 


方法 的 疗效 显著 地 优 于 原 疗 法 (a = 0.05)， 


